DE102022111716A1 - CLASSIFICATION OF AN UNSEEN ENVIRONMENT - Google Patents
CLASSIFICATION OF AN UNSEEN ENVIRONMENT Download PDFInfo
- Publication number
- DE102022111716A1 DE102022111716A1 DE102022111716.2A DE102022111716A DE102022111716A1 DE 102022111716 A1 DE102022111716 A1 DE 102022111716A1 DE 102022111716 A DE102022111716 A DE 102022111716A DE 102022111716 A1 DE102022111716 A1 DE 102022111716A1
- Authority
- DE
- Germany
- Prior art keywords
- foreground
- uncertainty
- background
- vehicle
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 18
- 230000015654 memory Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 26
- 230000008447 perception Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 240000005020 Acaciella glauca Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012614 Monte-Carlo sampling Methods 0.000 description 1
- 238000013531 bayesian neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011888 foil Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 235000003499 redwood Nutrition 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Ein System umfasst einen Computer, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher Anweisungen beinhaltet, durch die der Prozessor für Folgendes programmiert ist: Verarbeiten von Fahrzeugsensordaten mithilfe eines tiefen neuronalen Netzwerks, um auf Grundlage der Daten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht, und wenn die Objektunsicherheit größer als ein Unsicherheitsschwellenwert ist, Segmentieren der Fahrzeugsensordaten in einen Vordergrundteil und einen Hintergrundteil. Klassifizieren des Vordergrundteils als eine ungesehene Objektklasse beinhaltend, wenn eine Unsicherheit des Vordergrunds größer als ein Schwellenwert für die Unsicherheit des Vordergrunds ist; Klassifizieren des Hintergrundteils als einen ungesehenen Hintergrund beinhaltend, wenn eine Unsicherheit des Hintergrunds größer als ein Schwellenwert für die Unsicherheit des Hintergrunds ist; und Übertragen der Daten und einer Datenklassifizierung an einen Server. A system includes a computer that includes a processor and a memory, the memory containing instructions by which the processor is programmed to: process vehicle sensor data using a deep neural network to generate a prediction based on the data, which is a or multiple objects, and determining an object uncertainty corresponding to the prediction, and if the object uncertainty is greater than an uncertainty threshold, segmenting the vehicle sensor data into a foreground portion and a background portion. classifying the foreground part as including an unseen object class if a foreground uncertainty is greater than a foreground uncertainty threshold; classifying the background part as containing an unseen background if an uncertainty of the background is greater than a threshold for the uncertainty of the background; and transmitting the data and a data classification to a server.
Description
GEBIET DER TECHNIKFIELD OF TECHNOLOGY
Die Offenbarung betrifft im Allgemeinen neuronale Netzwerke in einem Fahrzeug.The disclosure generally relates to neural networks in a vehicle.
ALLGEMEINER STAND DER TECHNIKGENERAL STATE OF THE ART
Tiefe neuronale Netzwerke (deep neural networks - DNNs) können verwendet werden, um viele Aufgaben zum Verstehen von Bildern durchzuführen, einschließlich Klassifizierung, Segmentierung und Untertitelung. Zum Beispiel können neuronale Faltungsnetzwerke ein Bild als Eingabe verwenden, verschiedenen Aspekten/Objekten, die in dem Bild abgebildet sind, einen Wichtigkeitsgrad zuweisen und die Aspekte/Objekte voneinander abgrenzen.Deep neural networks (DNNs) can be used to perform many image understanding tasks, including classification, segmentation, and captioning. For example, convolutional neural networks can take an image as input, assign an importance level to different aspects/objects depicted in the image, and differentiate the aspects/objects from each other.
KURZDARSTELLUNGSHORT PRESENTATION
Autonome Fahrzeuge setzen in der Regel Wahrnehmungsalgorithmen ein, um die Umgebung um das Fahrzeug herum wahrzunehmen. Die Wahrnehmungsalgorithmen können ein oder mehrere tiefe neuronale Netzwerke verwenden, um die Detektion und/oder Klassifizierung von Objekten zu unterstützen. Wenn sich die Umgebung des Fahrzeugs ändert, sollte das Wahrnehmungssystem des Fahrzeugs in der Lage sein, aus unerwarteten Ergebnissen zu lernen, wie etwa einem detektierten Objekt, welches das Wahrnehmungssystem nicht sicher identifizieren kann. Das Identifizieren von Daten, wie etwa Datensätzen mit einer Domänenverschiebung oder Datenpunkten außerhalb der Verteilung, kann eine Herausforderung darstellen. Eine Domänenverschiebung entspricht einer größeren Änderung in der Umgebung eines Fahrzeugs. Ein Datenpunkt außerhalb der Verteilung kann ein zuvor ungesehenes Objekt in einer vertrauten Umgebung sein.Autonomous vehicles typically use perception algorithms to perceive the environment around the vehicle. The perception algorithms may use one or more deep neural networks to support the detection and/or classification of objects. As the vehicle's environment changes, the vehicle's perception system should be able to learn from unexpected results, such as a detected object that the perception system cannot confidently identify. Identifying data, such as datasets with a domain shift or data points outside the distribution, can be challenging. A domain shift corresponds to a major change in a vehicle's environment. An out-of-distribution data point may be a previously unseen object in a familiar environment.
Wie hierin erörtert, kann ein Computer ein neuronales Netzwerk umsetzen, das Daten identifiziert, die ungesehene Szenarien beinhalten. Ungesehene Szenarien können als neue Objektklassen, Umgebungsbedingungen oder Kombinationen aus Objektklassen und Umgebungsbedingungen definiert werden, die nicht in den Daten beinhaltet waren, die zum Trainieren des neuronalen Netzwerks verwendet wurden. Zum Beispiel können Merkmale, die ungesehene Szenarien beinhalten und in einem Bild abgebildet sind, dazu führen, dass das neuronale Netzwerk inkorrekte Vorhersagen erzeugt. Fahrzeugsensordaten, die einem Szenario entsprechen, können mithilfe eines tiefen neuronalen Netzwerks verarbeitet werden, um auf Grundlage der Daten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht. Die Objektunsicherheit ist eine Wahrscheinlichkeit, dass die Vorhersage, die ein oder mehrere Objekte angibt, das eine oder die mehreren Objekte korrekt identifiziert.As discussed herein, a computer may implement a neural network that identifies data containing unseen scenarios. Unseen scenarios can be defined as new object classes, environmental conditions, or combinations of object classes and environmental conditions that were not included in the data used to train the neural network. For example, features that include unseen scenarios depicted in an image may cause the neural network to produce incorrect predictions. Vehicle sensor data corresponding to a scenario may be processed using a deep neural network to generate a prediction based on the data that indicates one or more objects and to determine an object uncertainty corresponding to the prediction. Object uncertainty is a probability that the prediction specifying one or more objects correctly identifies the one or more objects.
Das neuronale Netzwerk kann ein probabilistisches tiefes neuronales Netzwerk, wie etwa ein Bayessches neuronales Netzwerk oder dergleichen, nutzen, um unsichere Objekte und/oder Hintergründe zu erfassen, die eine Datensatzverschiebung und/oder Daten außerhalb der Verteilung identifizieren können. Nachdem unzuverlässige Vorhersagen identifiziert wurden, können die der Vorhersage zugehörigen Daten für genauere Vorhersagen in der Zukunft annotiert werden. Ein Maß für die Unsicherheit in neuronalen Netzwerken ist die epistemische Unsicherheit. Epistemische Unsicherheit ist als eine Metrik definiert, die misst, wie gut eine gegebene Eingabe in einem Trainingsdatensatz dargestellt ist. Zum Beispiel gibt die epistemische Unsicherheit an, dass das neuronale Netzwerk nicht mit ausreichend Trainingsabtastungen trainiert wurde, um es dem neuronalen Netzwerk zu ermöglichen, korrekte Vorhersagen zu erzeugen. Eine korrekte Vorhersage ist eine Vorhersage, die mit den Ground-Truth-Daten übereinstimmt, die dem neuronalen Netzwerk während des Trainings bereitgestellt werden. Ground-Truth-Daten sind Daten, die durch Mittel bestimmt werden, die von dem neuronalen Netzwerk unabhängig sind, zum Beispiel indem Menschen die Inhalte der Eingabedaten bestimmen, die dem neuronalen Netzwerk während des Trainings bereitgestellt werden.The neural network may utilize a probabilistic deep neural network, such as a Bayesian neural network or the like, to detect uncertain objects and/or backgrounds that may identify data set shift and/or out-of-distribution data. After unreliable predictions are identified, the data associated with the prediction can be annotated for more accurate predictions in the future. A measure of uncertainty in neural networks is epistemic uncertainty. Epistemic uncertainty is defined as a metric that measures how well a given input is represented in a training data set. For example, epistemic uncertainty indicates that the neural network has not been trained with sufficient training samples to enable the neural network to produce correct predictions. A correct prediction is a prediction that is consistent with the ground truth data provided to the neural network during training. Ground truth data is data determined by means independent of the neural network, for example by humans determining the contents of the input data provided to the neural network during training.
In dieser Schrift wird ein Verfahren offenbart, das Verarbeiten von Fahrzeugsensordaten mithilfe eines tiefen neuronalen Netzwerks beinhaltet, um auf Grundlage der Fahrzeugsensordaten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht, und dann, wenn bestimmt wurde, dass die Objektunsicherheit größer als ein Unsicherheitsschwellenwert ist, Folgendes beinhaltet: Segmentieren der Fahrzeugsensordaten in einen Vordergrundteil und einen Hintergrundteil, Klassifizieren des Vordergrundteils als eine ungesehene Objektklasse beinhaltend, wenn eine epistemische Unsicherheit des Vordergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist, Klassifizieren des Hintergrundteils als einen ungesehenen Hintergrund beinhaltend, wenn eine epistemische Unsicherheit des Hintergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist, und Übertragen der Daten und einer Datenklassifizierung an einen Server. Der Prozessor kann ferner dazu programmiert sein, ein Fahrzeug auf Grundlage der Vorhersage zu betreiben, die ein oder mehrere Objekte angibt. Die Objektunsicherheit kann eine Wahrscheinlichkeit sein, dass die Vorhersage, die ein oder mehrere Objekte angibt, das eine oder die mehreren Objekte korrekt identifiziert.This document discloses a method that includes processing vehicle sensor data using a deep neural network to generate a prediction based on the vehicle sensor data indicating one or more objects and determining an object uncertainty corresponding to the prediction, and then, if it is determined that the object uncertainty is greater than an uncertainty threshold, includes: segmenting the vehicle sensor data into a foreground part and a background part, classifying the foreground part as containing an unseen object class if an epistemic uncertainty of the foreground is greater than a threshold for the epistemic uncertainty of the Foreground is, classifying the background part as containing an unseen background if an epistemic uncertainty of the background is greater than a threshold for the epistemic uncertainty of the background, and transmitting the data and a data classification to a server. The processor may further be programmed to operate a vehicle based on the prediction indicating one or more objects. The object uncertainty can be a probability that the prediction that specifies one or more objects that correctly identifies one or more objects.
Die epistemische Unsicherheit des Vordergrunds kann ein probabilistisches Maß dafür sein, wie gut das eine oder die mehreren Objekte in einer Trainingsdatenverteilung dargestellt sind. Die epistemische Unsicherheit des Hintergrunds kann ein probabilistisches Maß dafür sein, wie gut Rauschfaktoren in einer Trainingsdatenverteilung dargestellt sind, wobei Rauschfaktoren Wetterbedingungen, Beleuchtungsbedingungen und Oberflächenbedingungen beinhalten. Dem Vordergrundteil kann eine latente Darstellung zugeordnet werden, der latenten Darstellung kann eine Rekonstruktion des Vordergrundteils zugeordnet werden und die epistemische Unsicherheit des Vordergrunds kann auf Grundlage eines Vergleichs eines rekonstruierten Vordergrundteils mit dem Vordergrundteil bestimmt werden. Dem Hintergrundteil kann eine latente Darstellung zugeordnet werden, der latenten Darstellung kann eine Rekonstruktion des Hintergrundteils zugeordnet werden und die epistemische Unsicherheit des Hintergrunds kann auf Grundlage eines Vergleichs eines rekonstruierten Hintergrundteils mit dem Hintergrundteil bestimmt werden. Die Fahrzeugsensordaten können mindestens eines von einem Bild oder einer Punktwolke umfassen. Das tiefe neuronale Netzwerk kann ein probabilistisches neuronales Netzwerk beinhalten. Die Fahrzeugsensordaten können über einen Segmentierer über eine Segmentierungsmaske in den Vordergrundteil und den Hintergrundteil segmentiert werden. Die Segmentierungsmaske kann eine binäre Maske umfassen, die Objekte in den Fahrzeugsensordaten klassifiziert, wobei die klassifizierten Objekte dem Vordergrundteil zugewiesen werden. Der Segmentierer kann ein neuronales Maske-R-Faltungsnetzwerk (Mask R-convolutional neural network - Maske-R-CNN) umfassen. Das Objekt kann ein Fahrzeuganhänger sein und das tiefe neuronale Netzwerk gibt einen Anhängerwinkel aus. Der Anhängerwinkel kann eine Richtung beschreiben, in die sich der Fahrzeuganhänger als Reaktion auf ein Zurücksetzen eines Fahrzeugs bewegen wird.The epistemic uncertainty of the foreground can be a probabilistic measure of how well the one or more objects in a training data distribution are represented. The epistemic uncertainty of the background can be a probabilistic measure of how well noise factors are represented in a training data distribution, where noise factors include weather conditions, lighting conditions and surface conditions. A latent representation can be assigned to the foreground part, a reconstruction of the foreground part can be assigned to the latent representation, and the epistemic uncertainty of the foreground can be determined based on a comparison of a reconstructed foreground part with the foreground part. A latent representation can be associated with the background part, a reconstruction of the background part can be associated with the latent representation, and the epistemic uncertainty of the background can be determined based on a comparison of a reconstructed background part with the background part. The vehicle sensor data may include at least one of an image or a point cloud. The deep neural network may include a probabilistic neural network. The vehicle sensor data can be segmented into the foreground part and the background part via a segmenter via a segmentation mask. The segmentation mask may include a binary mask that classifies objects in the vehicle sensor data, with the classified objects being assigned to the foreground part. The segmenter may include a Mask R-convolutional neural network (Mask R-CNN). The object can be a vehicle trailer and the deep neural network outputs a trailer angle. The trailer angle may describe a direction in which the vehicle trailer will move in response to a vehicle reversing.
Es wird ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner wird ein Computer offenbart, der dazu programmiert ist, einige oder alle der vorstehenden Verfahrensschritte auszuführen, einschließlich einer Computereinrichtung, die dazu programmiert ist, Fahrzeugsensordaten mithilfe eines tiefen neuronalen Netzwerks zu verarbeiten, um auf Grundlage der Fahrzeugsensordaten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht, und dann, wenn bestimmt wird, dass die Objektunsicherheit größer als ein Unsicherheitsschwellenwert ist, für Folgendes programmiert ist: Segmentieren der Fahrzeugsensordaten in einen Vordergrundteil und einen Hintergrundteil, Klassifizieren des Vordergrundteils als eine ungesehene Objektklasse beinhaltend, wenn eine epistemische Unsicherheit des Vordergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist, Klassifizieren des Hintergrundteils als einen ungesehenen Hintergrund beinhaltend, wenn eine epistemische Unsicherheit des Hintergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist, und Übertragen der Daten und einer Datenklassifizierung an einen Server. Der Prozessor kann ferner dazu programmiert sein, ein Fahrzeug auf Grundlage der Vorhersage zu betreiben, die ein oder mehrere Objekte angibt. Die Objektunsicherheit kann eine Wahrscheinlichkeit sein, dass die Vorhersage, die ein oder mehrere Objekte angibt, das eine oder die mehreren Objekte korrekt identifiziert.A computer-readable medium is disclosed on which program instructions for carrying out some or all of the foregoing method steps are stored. Further disclosed is a computer programmed to perform some or all of the foregoing method steps, including a computing device programmed to process vehicle sensor data using a deep neural network to generate a prediction based on the vehicle sensor data that is one or more indicating multiple objects, and determining an object uncertainty that corresponds to the prediction, and then, if it is determined that the object uncertainty is greater than an uncertainty threshold, is programmed to: segment the vehicle sensor data into a foreground part and a background part, classifying the foreground part as including an unseen object class if an epistemic uncertainty of the foreground is greater than a threshold for the epistemic uncertainty of the foreground, classifying the background part as containing an unseen background if an epistemic uncertainty of the background is greater than a threshold for the epistemic uncertainty of the background, and transmitting the data and a data classification to a server. The processor may further be programmed to operate a vehicle based on the prediction indicating one or more objects. The object uncertainty may be a probability that the prediction specifying one or more objects correctly identifies the one or more objects.
Der Computer kann ferner dazu programmiert sein, die epistemische Unsicherheit des Vordergrunds zu bestimmen, die ein probabilistisches Maß dafür sein kann, wie gut das eine oder die mehreren Objekte in einer Trainingsdatenverteilung dargestellt sind. Die epistemische Unsicherheit des Hintergrunds kann ein probabilistisches Maß dafür sein, wie gut Rauschfaktoren in einer Trainingsdatenverteilung dargestellt sind, wobei Rauschfaktoren Wetterbedingungen, Beleuchtungsbedingungen und Oberflächenbedingungen beinhalten. Dem Vordergrundteil kann eine latente Darstellung zugeordnet werden, der latenten Darstellung kann eine Rekonstruktion des Vordergrundteils zugeordnet werden und die epistemische Unsicherheit des Vordergrunds kann auf Grundlage eines Vergleichs eines rekonstruierten Vordergrundteils mit dem Vordergrundteil bestimmt werden. Dem Hintergrundteil kann eine latente Darstellung zugeordnet werden, der latenten Darstellung kann eine Rekonstruktion des Hintergrundteils zugeordnet werden und die epistemische Unsicherheit des Hintergrunds kann auf Grundlage eines Vergleichs eines rekonstruierten Hintergrundteils mit dem Hintergrundteil bestimmt werden. Die Fahrzeugsensordaten können mindestens eines von einem Bild oder einer Punktwolke umfassen. Das tiefe neuronale Netzwerk kann ein probabilistisches neuronales Netzwerk beinhalten. Die Fahrzeugsensordaten können über einen Segmentierer über eine Segmentierungsmaske in den Vordergrundteil und den Hintergrundteil segmentiert werden. Die Segmentierungsmaske kann eine binäre Maske umfassen, die Objekte in den Fahrzeugsensordaten klassifiziert, wobei die klassifizierten Objekte dem Vordergrundteil zugewiesen werden. Der Segmentierer kann ein neuronales Maske-R-Faltungsnetzwerk (Maske-R-CNN) umfassen. Das Objekt kann ein Fahrzeuganhänger sein und das tiefe neuronale Netzwerk gibt einen Anhängerwinkel aus. Der Anhängerwinkel kann eine Richtung beschreiben, in die sich der Fahrzeuganhänger als Reaktion auf ein Zurücksetzen eines Fahrzeugs bewegen wird.The computer may further be programmed to determine the epistemic uncertainty of the foreground, which may be a probabilistic measure of how well the one or more objects in a training data distribution are represented. The epistemic uncertainty of the background can be a probabilistic measure of how well noise factors are represented in a training data distribution, where noise factors include weather conditions, lighting conditions and surface conditions. A latent representation can be assigned to the foreground part, a reconstruction of the foreground part can be assigned to the latent representation, and the epistemic uncertainty of the foreground can be determined based on a comparison of a reconstructed foreground part with the foreground part. A latent representation can be associated with the background part, a reconstruction of the background part can be associated with the latent representation, and the epistemic uncertainty of the background can be determined based on a comparison of a reconstructed background part with the background part. The vehicle sensor data may include at least one of an image or a point cloud. The deep neural network may include a probabilistic neural network. The vehicle sensor data can be segmented into the foreground part and the background part via a segmenter via a segmentation mask. The segmentation mask may include a binary mask that classifies objects in the vehicle sensor data, with the classified objects being assigned to the foreground part. The segmenter may include a Mask-R convolutional neural network (Mask-R-CNN). The object can be a vehicle trailer and that deep neural network outputs a trailer angle. The trailer angle may describe a direction in which the vehicle trailer will move in response to a vehicle reversing.
KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
-
1 ist ein Diagramm eines beispielhaften Systems, das ein Fahrzeug beinhaltet.1 is a diagram of an example system that includes a vehicle. -
2 ist ein Diagramm eines beispielhaften Servers in dem System.2 is a diagram of an example server in the system. -
3 ist ein Diagramm eines beispielhaften tiefen neuronalen Netzwerks.3 is a diagram of an example deep neural network. -
4 ist ein Diagramm eines beispielhaften Wahrnehmungsnetzwerks und eines neuronalen Netzwerks zur Detektion ungesehener Szenarien.4 is a diagram of an example perception network and a neural network for detecting unseen scenarios. -
5 ist ein Diagramm eines beispielhaften Fahrzeuganhängers.5 is a diagram of an example vehicle trailer. -
6 ist ein Ablaufdiagramm, das einen beispielhaften Prozess zum Identifizieren eines ungesehenen Szenarios in Daten, für das ein oder mehrere tiefe neuronale Netzwerke nicht trainiert wurden, veranschaulicht.6 is a flowchart illustrating an example process for identifying an unseen scenario in data for which one or more deep neural networks have not been trained.
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
Der Computer 110 beinhaltet einen Prozessor und einen Speicher. Der Speicher beinhaltet eine oder mehrere Formen computerlesbarer Medien und speichert Anweisungen, die durch den Computer 110 zum Durchführen verschiedener Vorgänge, einschließlich der in dieser Schrift offenbarten, ausführbar sind.The
Der Computer 110 kann ein Fahrzeug 105 in einem autonomen, einem halbautonomen Modus oder einem nicht autonomen (manuellen) Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 105 durch den Computer 110 gesteuert wird; in einem halbautonomen Modus steuert der Computer 110 eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs 105; in einem nicht autonomen Modus steuert ein menschlicher Bediener jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 105.The
Der Computer 110 kann eine Programmierung zum Betreiben eines oder mehrerer von Bremsen, Antrieb (z. B. Steuern der Beschleunigung in dem Fahrzeug durch Steuern eines oder mehrerer von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenkung, Klimasteuerung, Innen- und/oder Außenbeleuchtung usw. des Fahrzeugs 105 und zum Bestimmen, ob und wann der Computer 110 derartige Vorgänge anstelle eines menschlichen Bedieners steuern soll, beinhalten. Des Weiteren kann der Computer 110 dazu programmiert sein, zu bestimmen, ob und wann ein menschlicher Bediener derartige Vorgänge steuern soll.The
Der Computer 110 kann mehr als einen Prozessor, der z. B. in elektronischen Steuereinheiten (electronic controller units - ECUs) oder dergleichen beinhaltet ist, die in dem Fahrzeug 105 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten 125 beinhaltet sind, z. B. in einer Antriebsstrangsteuerung, einer Bremssteuerung, einer Lenkungssteuerung usw., beinhalten oder kommunikativ an diese gekoppelt sein, z. B. über das Kommunikationsmodul 130 des Fahrzeugs 105, wie nachstehend ausführlicher beschrieben. Ferner kann der Computer 110 über das Kommunikationsmodul 130 des Fahrzeugs 105 mit einem Navigationssystem kommunizieren, welches das globale Positionsbestimmungssystem (GPS) verwendet. Als ein Beispiel kann der Computer 110 Standortdaten des Fahrzeugs 105 anfordern und empfangen. Die Standortdaten können in einem herkömmlichen Format vorliegen, z. B. als Geokoordinaten (Breiten- und Längengradkoordinaten).The
Der Computer 110 ist im Allgemeinen zur Kommunikation über das Kommunikationsmodul 130 des Fahrzeugs 105 und zudem mithilfe eines internen drahtgebundenen und/oder drahtlosen Netzwerks des Fahrzeugs 105, z. B. einem Bus oder dergleichen in dem Fahrzeug 105, wie etwa einem Controller Area Network (CAN) oder dergleichen, und/oder anderer drahtgebundener und/oder drahtloser Mechanismen angeordnet.The
Über das Kommunikationsnetzwerk des Fahrzeugs 105 kann der Computer 110 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug 105 übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Fahrzeugsensoren 115, Aktoren 120, Fahrzeugkomponenten 125, einer Mensch-Maschine-Schnittstelle (human machine interface - HMI) usw. Alternativ oder zusätzlich kann das Kommunikationsnetzwerk des Fahrzeugs 105 in Fällen, in denen der Computer 110 tatsächlich eine Vielzahl von Vorrichtungen umfasst, zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als der Computer 110 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen und/oder Fahrzeugsensoren 115 dem Computer 110 Daten bereitstellen.Via the communication network of the
Die Fahrzeugsensoren 115 können eine Vielfalt von Vorrichtungen beinhalten, die bekanntermaßen dem Computer 110 Daten bereitstellen. Zum Beispiel können die Fahrzeugsensoren 115 einen oder mehrere Light-Detection-and-Ranging-Sensoren (Lidar-Sensoren) 115 usw. beinhalten, die oben auf dem Fahrzeug 105, hinter einer Windschutzscheibe des Fahrzeugs 105, um das Fahrzeug 105 herum usw. angeordnet sind und relative Standorte, Größen und Formen von Objekten und/oder Bedingungen um das Fahrzeug 105 bereitstellen. Als ein weiteres Beispiel können ein oder mehrere Radarsensoren 115, die an Stoßfängern des Fahrzeugs 105 befestigt sind, Daten bereitstellen, um die Geschwindigkeit von Objekten (die möglicherweise zweite Fahrzeuge beinhalten) usw. in Bezug auf den Standort des Fahrzeugs 105 bereitzustellen und anzuordnen. Die Fahrzeugsensoren 115 können ferner einen oder mehrere Kamerasensoren 115 beinhalten, die z. B. nach vorne, zur Seite, nach hinten usw. gerichtet sind und Bilder eines Sichtfelds innerhalb und/oder außerhalb des Fahrzeugs 105 bereitstellen.The
Die Aktoren 120 des Fahrzeugs 105 sind über Schaltungen, Chips, Elektromotoren oder andere elektronische und/oder mechanische Komponenten umgesetzt, die verschiedene Fahrzeugteilsysteme gemäß geeigneten Steuersignalen, wie bekannt, betätigen können. Die Aktoren 120 können verwendet werden, um Komponenten 125, einschließlich Bremsung, Beschleunigung und Lenkung eines Fahrzeugs 105, zu steuern.The
Im Kontext der vorliegenden Offenbarung handelt es sich bei einer Fahrzeugkomponente 125 um eine oder mehrere Hardwarekomponenten, die dazu ausgelegt sind, eine(n) mechanische(n) oder elektromechanische(n) Funktion oder Vorgang durchzuführen - wie etwa Bewegen des Fahrzeugs 105, Abbremsen oder Anhalten des Fahrzeugs 105, Lenken des Fahrzeugs 105 usw. Nicht einschränkende Beispiele für die Komponenten 125 beinhalten eine Antriebskomponente (die z. B. eine Brennkraftmaschine und/oder einen Elektromotor usw. beinhaltet), eine Getriebekomponente, eine Lenkkomponente (die z. B. eines oder mehrere von einem Lenkrad, einer Zahnstange usw. beinhalten kann), eine Bremskomponente (wie nachstehend beschrieben), eine Einparkhilfekomponente, eine Komponente zur adaptiven Geschwindigkeitsregelung, eine Komponente zur adaptiven Lenkung, einen bewegbaren Sitz usw.In the context of the present disclosure, a
Des Weiteren kann der Computer 110 dazu konfiguriert sein, über ein Fahrzeug-zu-FahrzeugKommunikationsmodul 130 mit Vorrichtungen außerhalb des Fahrzeugs 105 zu kommunizieren, z. B. über drahtlose Kommunikation von Fahrzeug-zu-Fahrzeug (vehicle-tovehicle - V2V) oder Fahrzeug-zu-Infrastruktur (vehicle-to-infrastructure - V2X) mit einem anderen Fahrzeug, mit einem entfernten Server 145 (in der Regel über das Netzwerk 135). Das Kommunikationsmodul 130 könnte einen oder mehrere Mechanismen beinhalten, durch die der Computer 110 kommunizieren kann, einschließlich einer beliebigen gewünschten Kombination aus drahtlosen (z. B. Mobilfunk-, Drahtlos-, Satelliten-, Mikrowellen- und Hochfrequenz-) Kommunikationsmechanismen und einer beliebigen gewünschten Netzwerktopologie (oder -topologien, wenn eine Vielzahl von Kommunikationsmechanismen genutzt wird). Eine beispielhafte über das Kommunikationsmodul 130 bereitgestellte Kommunikation beinhaltet Mobilfunk, Bluetooth®, IEEE 802.11, dedizierte Nahbereichskommunikation (dedicated short range communications - DSRC) und/oder Weitverkehrsnetzwerke (wide area network - WAN), einschließlich des Internets, die Datenkommunikationsdienste bereitstellen.Furthermore, the
Das Netzwerk 135 kann einer oder mehrere von verschiedenen drahtgebundenen oder drahtlosen Kommunikationsmechanismen sein, einschließlich einer beliebigen gewünschten Kombination aus drahtgebundenen (z. B. Kabel- und Glasfaser-) und/oder drahtlosen (z. B. Mobilfunk-, Drahtlos-, Satelliten-, Mikrowellen- und Hochfrequenz-) Kommunikationsmechanismen und einer beliebigen gewünschten Netzwerktopologie (oder - topologien, wenn mehrere Kommunikationsmechanismen genutzt werden). Zu beispielhaften Kommunikationsnetzwerken gehören drahtlose Kommunikationsnetzwerke (z. B. unter Verwendung von Bluetooth, Bluetooth Low Energy (BLE), IEEE 802.11, Fahrzeug-zu-Fahrzeug (V2V), wie etwa dedizierter Nahbereichskommunikation (DSRC) usw.), lokale Netzwerke (local area network - LAN) und/oder Weitverkehrsnetzwerke (WAN), einschließlich des Internets, die Datenkommunikationsdienste bereitstellen.The
Ein Computer 110 kann im Wesentlichen kontinuierlich, periodisch, und/oder nach Anweisung durch einen Server 145 usw. Daten von den Sensoren 115 empfangen und analysieren. Ferner können Objektklassifizierungs- oder identifizierungstechniken verwendet werden, z. B. in einem Computer 110 auf Grundlage von Daten von einem Lidar-Sensor 115, einem Kamerasensor 115 usw., um eine Objektart, z. B. Fahrzeug, Person, Stein, Schlagloch, Fahrrad, Motorrad usw., sowie physische Merkmale von Objekten zu identifizieren. A
Die Knoten 305 werden mitunter als künstliche Neuronen 305 bezeichnet, da sie dazu ausgestaltet sind, biologische, z. B. menschliche, Neuronen nachzubilden. Ein Satz von Eingaben (durch die Pfeile dargestellt) in jedes künstliche Neuron 305 wird jeweils mit entsprechenden Gewichtungen multipliziert. Die gewichteten Eingaben können dann in einer Eingabefunktion summiert werden, um eine, möglicherweise um eine systematische Abweichung angepasste, Nettoeingabe bereitzustellen. Die Nettoeingabe kann dann einer Aktivierungsfunktion bereitgestellt werden, die wiederum einem verbundenen künstlichen Neuron 305 eine Ausgabe bereitstellt. Bei der Aktivierungsfunktion kann es sich um eine Vielfalt geeigneter Funktionen handeln, die in der Regel auf Grundlage einer empirischen Analyse ausgewählt wird. Wie durch die Pfeile in
Das DNN 300 kann dazu trainiert werden, Daten als Eingabe anzunehmen und eine Ausgabe auf Grundlage der Eingabe zu erzeugen. Das DNN 300 kann mithilfe von Ground-Truth-Daten trainiert werden, d. h. Daten über eine Bedingung oder einen Zustand in der realen Welt. Zum Beispiel kann das DNN 300 durch einen Prozessor mithilfe von Ground-Truth-Daten trainiert oder mit zusätzlichen Daten aktualisiert werden. Die Gewichtungen können zum Beispiel unter Verwendung einer Gauß-Verteilung initialisiert werden und eine systematische Abweichung für jeden Knoten 305 kann auf null gesetzt werden. Das Trainieren des DNN 300 kann Aktualisieren von Gewichtungen und systematischen Abweichungen durch geeignete Techniken beinhalten, wie etwa die Rückpropagierung mit Optimierungen.The
Rückpropagierung ist eine Technik, die Ausgaben von dem DNN 300 an die Eingabe zurückgibt, damit sie mit den Ground-Truth-Daten verglichen werden, die den Testdaten entsprechen. In diesem Beispiel können während des Trainings eine Markierung und eine Blockierungswahrscheinlichkeit rückpropagiert werden, um mit der in den Ground-Truth-Daten beinhalteten Markierung und Blockierungswahrscheinlichkeit verglichen zu werden, um eine Verlustfunktion zu bestimmen. Die Verlustfunktion bestimmt, wie genau das DNN 300 das DNN 300 verarbeitet hat. Das DNN 300 kann eine Vielzahl von Malen an Vordergrund- und Hintergrunddaten ausgeführt werden, während Parameter, welche die Verarbeitung des DNN 300 steuern, variiert werden. Parameter, die korrekten Antworten entsprechen, wie durch eine Verlustfunktion bestätigt, welche die Ausgaben mit den Ground-Truth-Daten vergleicht, werden als mögliche Parameter gespeichert. Im Anschluss an die Testdurchläufe werden die möglichen Parameter, welche die meisten korrekten Ergebnisse produzieren, als die Parameter gespeichert, die verwendet werden können, um das DNN 300 während des Betriebs zu programmieren. Ground-Truth-Daten können unter anderem Daten beinhalten, die vorgeben, ob Teile eines Bildes ein Vordergrundteil des Bildes oder ein Hintergrundteil des Bildes sind. Zum Beispiel kann es sich bei den Ground-Truth-Daten um Daten handeln, die Vordergrund- und Hintergrunddaten und entsprechende Markierungen darstellen. In einer beispielhaften Umsetzung können Pixel eines Bildes derart klassifiziert werden, dass Pixel, die einem Objekt oder Objekten entsprechen, in eine Klasse kategorisiert werden, wie etwa Personen, Fahrzeuge, Schilder usw. Das DNN 300 kann auf dem Server 145 trainiert und dem Fahrzeug 105 über das Kommunikationsnetzwerk 135 bereitgestellt werden. Das DNN 300 kann ein oder mehrere probabilistische neuronale Netzwerke, neuronale Faltungsnetzwerke, Autoencoder, Variationsautoencoder, Sparse-Autoencoder, ein rekurrentes neuronales Netzwerk, ein Dekonvolutionsnetzwerk oder dergleichen umfassen, die in dieser Schrift erörtert werden.Backpropagation is a technique that returns outputs from the
Das probabilistische neuronale Netzwerk 407 kann eine Vorhersage auf Grundlage der empfangenen Daten und eine epistemische Unsicherheit, die nachstehend genauer beschrieben wird und der Vorhersage entspricht, erzeugen. Das Wahrnehmungsnetzwerk 405 vergleicht die epistemische Unsicherheit mit einem Schwellenwert für die epistemische Unsicherheit. Wenn die Daten der epistemischen Unsicherheit zugehörig sind, die größer als der Unsicherheitsschwellenwert ist, werden die Daten zur weiteren Verarbeitung dem neuronalen Netzwerk 410 zur Detektion ungesehener Szenarien bereitgestellt. Die in dieser Schrift erörterten Schwellenwerte für die epistemische Unsicherheit können während der Entwicklung des probabilistischen neuronalen Netzwerks 407 und/oder des neuronalen Netzwerks 410 zur Detektion ungesehener Szenarien empirisch bestimmt werden. In einer beispielhaften Umsetzung können die Schwellenwerte für die epistemische Unsicherheit unter Verwendung von Clustering-Techniken, Anomaliedetektionstechniken oder anderen ähnlichen Techniken bestimmt werden. Diese Techniken können auf die Vorhersagen angewendet werden, die durch das probabilistische neuronale Netzwerk 407 während des Trainings ausgegeben werden, indem die Vorhersagen mit Ground-Truth-Daten verglichen werden.The probabilistic
Das neuronale Netzwerk 410 zur Detektion ungesehener Szenarien beinhaltet einen Segmentierer 415, einen Vordergrund-Autoencoder 420 und einen Hintergrund-Autoencoder 425. Das neuronale Netzwerk 410 zur Detektion ungesehener Szenarien empfängt die Daten von dem Wahrnehmungsnetzwerk 405, um zu bestimmen, welcher Teil der Daten einem ungesehenen Szenario entspricht. Der Segmentierer 415 segmentiert die empfangenen Daten über herkömmliche Segmentierungstechniken in Hintergrund- und Vordergrundteile. Ein oder mehrere Objekte, die in dem Bild abgebildet sind, können auf Grundlage der Segmentierung des Bildes detektiert werden. Zum Beispiel kann jeder abgegrenzte zusammenhängende Vordergrundteil als ein Objekt in der Szene identifiziert werden. In einigen Beispielen werden nur zusammenhängende Vordergrundteile, deren Größe über einem bestimmten Wert liegt, z. B. um eine Anzahl von Pixeln, als ein Objekt in der Szene identifiziert.The unseen scenario detection
Der Segmentierer 415 verwendet eine Segmentierungsmaske, um Bereiche des Bildes als zu einem oder mehreren Vordergrundteilen, z. B. einer Vielzahl von Vordergrundpixeln, und einem oder mehreren Hintergrundteilen, z. B. einer Vielzahl von Hintergrundpixeln, des Bildes gehörend zu definieren. In einem Beispiel definiert die Segmentierungsmaske jeden Bereich des Bildes, der kein Vordergrundteil ist, als zu dem Hintergrundteil gehörend. Dementsprechend kann nur ein Hintergrundteil definiert sein. Die Segmentierungsmaske kann eine binäre Maske umfassen, die Merkmale oder Objekte, die in einem Bild oder einer Punktwolke identifiziert werden, klassifiziert, und die klassifizierten Merkmale oder Objekte werden dem Vordergrundteil zugewiesen. In einer oder mehreren Umsetzungen kann der Segmentierer 415 ein neuronales Maske-R-Faltungsnetzwerk (Maske-R-CNN) umfassen. Ein Maske-R-CNN fügt einen Zweig von Faltungsschichten zum Vorhersagen einer Vordergrundmaske zu den Faltungsschichten hinzu, die den Vordergrund vorhersagen. Es versteht sich jedoch, dass der Segmentierer 415 andere geeignete neuronale Netzwerke umfassen kann, die ähnliche Merkmale oder Objekte, die in dem Bild abgebildet sind, klassifizieren und das klassifizierte Objekt dem Vordergrundteil des Bildes zuweisen kann.The
Die Autoencoder 420, 425 können künstliche neuronale Netzwerke umfassen, die dazu trainiert sind, Ausgabedaten auf Grundlage der Eingabedaten zu erzeugen. Die Autoencoder 420, 425 können jeweils einen Encoder, der den Eingabedaten eine latente Darstellung zuordnet, und einen Decoder, welcher der latenten Darstellung eine Rekonstruktion der Eingabedaten zuordnet, beinhalten. Zum Beispiel komprimiert der Encoder Eingabedaten zu einer komprimierten Darstellung der Daten und dekomprimiert der Decoder die komprimierte Darstellung zu der Rekonstruktion der Eingabedaten. Jeder Autoencoder 420, 425 kann ein vorwärtsgekoppeltes neuronales Netzwerk umfassen, das eine Ausgabe auf Grundlage der Eingabe erzeugt und eine epistemische Unsicherheit erzeugt, die der erzeugten Ausgabe entspricht. Unsicherheit ist ein probabilistisches Maß für die Zuverlässigkeit der Vorhersage des Wahrnehmungsmodells. Epistemische Unsicherheit stellt die Unsicherheit aufgrund begrenzter Daten und Kenntnisse dar. Im Fall von überwachten neuronalen Netzwerken gibt die epistemische Unsicherheit ein probabilistisches Maß dafür, wie gut die Eingabe in der Trainingsdatenverteilung dargestellt ist. Die jeweilige epistemische Unsicherheitsmetrik für jeden Autoencoder 420, 425 kann durch einen Rekonstruktionsfehler quantifiziert werden, der den Eingabedaten entspricht.The
Während des Trainings empfängt der Vordergrund-Autoencoder 420 den Vordergrundteil von dem Segmentierer 415, bestimmt eine epistemische Unsicherheit, die dem Vordergrundteil entspricht, und ordnet dem Vordergrundteil eine latente Darstellung zu. Die epistemische Unsicherheit des Vordergrunds ist ein probabilistisches Maß dafür, wie gut Objekte in einer Trainingsdatenverteilung dargestellt sind. Der Vordergrund-Autoencoder 420 kann eine epistemische Unsicherheitsmetrik des Vordergrunds bestimmen, indem er die Rekonstruktion mit dem eingegebenen Vordergrundteil vergleicht, wie vorstehend erörtert. Ein Schwellenwert für die epistemische Unsicherheit des Vordergrunds kann durch Beobachten eines typischen Minimalwerts der epistemischen Unsicherheit bestimmt werden, der für rekonstruierte Vordergrundteile während des Trainings bestimmt wird. Bei der Ausführung im Anschluss an das Training vergleicht der Vordergrund-Autoencoder 420 eine bestimmte epistemische Unsicherheit des Vordergrunds mit dem zuvor bestimmten Schwellenwert für die epistemische Unsicherheit des Vordergrunds. Der Vordergrund-Autoencoder 420 klassifiziert den Vordergrundteil als eine ungesehene Objektklasse beinhaltend, wenn die epistemische Unsicherheit des Vordergrunds größer als der Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist.During training, the
Der Hintergrund-Autoencoder 425 empfängt den Hintergrundteil von dem Segmentierer 415, ordnet dem Hintergrundteil eine latente Darstellung zu und ordnet der latenten Darstellung eine Rekonstruktion des Hintergrundteils zu. Der Hintergrund-Autoencoder 425 kann eine epistemische Unsicherheitsmetrik des Hintergrunds bestimmen, indem er die Rekonstruktion mit dem eingegebenen Hintergrundteil vergleicht. Die Unsicherheit des Hintergrunds ist ein probabilistisches Maß dafür, wie gut Rauschfaktoren in einer Trainingsdatenverteilung dargestellt sind, wobei Rauschfaktoren Wetterbedingungen, Beleuchtungsbedingungen und Oberflächenbedingungen beinhalten. Der Hintergrund-Autoencoder 425 vergleicht die epistemische Unsicherheit des Hintergrunds mit einem Schwellenwert für die epistemische Unsicherheit des Hintergrunds. Der Schwellenwert für die epistemische Unsicherheit des Hintergrunds kann wie vorstehend erörtert während des Trainings bestimmt werden. Der Hintergrund-Autoencoder 425 klassifiziert den Hintergrundteil als ungesehenen Hintergrundinhalt beinhaltend, wenn die epistemische Unsicherheit des Hintergrunds größer als der Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist.The
Das Maß der Genauigkeit gegenüber der Unsicherheit von Vorhersagen von zuvor trainierten DNNs wird verwendet, um den Schwellenwert für die epistemische Unsicherheit zu bestimmen. Die epistemische Unsicherheitsmetrik kann auf dem Messen der Ähnlichkeit zwischen dem rekonstruierten Teil und der Eingabe beruhen oder auf anderen Bildverarbeitungstechniken, wie etwa Bestimmen der Bildähnlichkeit, einschließlich Quadratsummenunterschieden, Korrelation und Vergleichen unter Verwendung neuronaler Netzwerke. Epistemische Unsicherheitsmetriken für Autoencoder, wie etwa den Vordergrund-Autoencoder 420 und den Hintergrund-Autoencoder 425, können unter Verwendung verschiedener Bayesscher Lerntechniken berechnet werden. Die Bayesschen Lerntechniken können Folgendes beinhalten: Monte-Carlo-Abtastverfahren; Gruppenverfahren, die mehrere probabilistische Modelle mit unterschiedlichen Initialisierungen trainieren; und Variationsinferenz, welche die Gewichtungen der Autoencoder durch eine Gauß-Variations-Posterior-Annäherung anpasst.The measure of accuracy versus uncertainty of predictions from previously trained DNNs is used to determine the epistemic uncertainty threshold. The epistemic uncertainty metric may be based on measuring the similarity between the reconstructed part and the input or on other image processing techniques such as determining image similarity including sum of squares differences, correlation and comparisons using neural networks. Epistemic uncertainty metrics for autoencoders, such as
Das Wahrnehmungsnetzwerk 405 kann eine Ausgabe von den Autoencodern 420, 425 empfangen, die angibt, ob die Eingabedaten eine ungesehene Objektklasse oder einen ungesehenen Hintergrundinhalt beinhalten. Wenn das Wahrnehmungsnetzwerk 405 eine Ausgabe empfängt, die angibt, dass die Daten eine ungesehene Objektklasse oder einen ungesehenen Hintergrundinhalt beinhalten, kann das Wahrnehmungsnetzwerk 405 die Daten über das Netzwerk 135 an den Server 145 übertragen. Wie vorstehend erörtert, entsprechen ungesehene Objektklassen und ungesehener Hintergrundinhalt im Allgemeinen hohen epistemischen Unsicherheiten. Siehe Objektklassen und gesehene Objektklassen entsprechen im Allgemeinen niedrigen epistemischen Unsicherheiten. In Beispielen, in denen die durch die Autoencoder ausgegebenen latenten Darstellungen keine ungesehene Objektklasse und keinen ungesehenen Hintergrundinhalt beinhalten, die durch das Wahrnehmungsnetzwerk 405 bestimmte epistemische Gesamtunsicherheit jedoch hoch ist, kann die Ausgabe mit einem Flag zur manuellen Überprüfung versehen und dem Server 145 bereitgestellt werden. Das Wahrnehmungsnetzwerk 405 kann mit Daten mit Markierungen, die eine Objektklasse und/oder einen Hintergrundinhalt angeben, neu trainiert werden und dem Fahrzeug 105 bereitgestellt werden, sobald es neu trainiert wurde.The
Ein tiefes neuronales Netzwerk 400, das ein Wahrnehmungsnetzwerk 405 und ein neuronales Netzwerk 410 zur Detektion ungesehener Szenarien beinhaltet, kann den Betrieb eines Fahrzeugs 105 verbessern, indem es Ausgaben bereitstellt, die angeben, dass die Eingabedaten eine ungesehene Objektklasse oder eine ungesehene Hintergrundklasse beinhalten. Das Vorhandensein einer ungesehenen Objektklasse oder einer ungesehenen Hintergrundklasse kann angeben, dass das Ausgabeergebnis, zum Beispiel ein Anhängerwinkel, des tiefen neuronalen Netzwerks 400 eine hohe epistemische Unsicherheit aufweist und daher das Ausgabeergebnis unter Umständen nicht zuverlässig ist. Eine hohe epistemische Unsicherheit wird durch einen Benutzer auf Grundlage von Erfahrung definiert und kann zum Beispiel eine Unsicherheit von mehr als 50 % sein. In Beispielen, in denen das tiefe neuronale Netzwerk 400 eine hohe epistemische Unsicherheit angibt, kann ein Computer 110 in einem Fahrzeug 105 bestimmen, dass die Zuverlässigkeit des Ergebnisses nicht ausreicht, um es dem Computer 110 zu ermöglichen, das Fahrzeug 105 zu betreiben. Zum Beispiel kann der Computer 110 das Zurücksetzen des Fahrzeugs 105 mit einem angebrachten Anhänger stoppen, wenn die epistemische Unsicherheit, die dem Anhängerwinkel 504 entspricht, größer als ein Schwellenwert von 50 % ist, was angibt, dass das tiefe neuronale Netzwerk 400 den Anhängerwinkel 504 nicht korrekt bestimmt hat. Der Schwellenwert für die epistemische Unsicherheit kann durch einen Benutzer auf Grundlage eines Testens des tiefen neuronalen Netzwerks 400 unter Verwendung von Daten der realen Welt ausgewählt werden. Die Ausgabedaten bezüglich der ungesehenen Objektklasse und der ungesehenen Hintergrundklasse können auf einen Server 145 hochgeladen werden, um es dem Server 145 zu ermöglichen, das tiefe neuronale Netzwerk 400 auf Grundlage der ungesehenen Obj ektklasse und der ungesehenen Hintergrundklasse neu zu trainieren. Das neu trainierte tiefe neuronale Netzwerk 400 kann anschließend auf den Computer 110 in dem Fahrzeug 105 heruntergeladen werden, um es dem Computer 110 zu ermöglichen, die Eingabedaten, welche die ungesehene Objektklasse und die ungesehene Hintergrundklasse beinhalten, mit einer niedrigeren epistemischen Unsicherheit zu verarbeiten.A deep
In Beispielen, in denen das tiefe neuronale Netzwerk 400 eine niedrige epistemische Unsicherheit angibt, zum Beispiel wenn die epistemische Unsicherheit kleiner als der Schwellenwert von 50 % ist, kann die Ausgabe des tiefen neuronalen Netzwerks 400 verwendet werden, um das Fahrzeug 105 zu betreiben. Ein Beispiel für das Betreiben eines Fahrzeugs 105 auf Grundlage der Ausgabe des tiefen neuronalen Netzwerks 400 besteht darin, dass das tiefe neuronale Netzwerk 400 als Reaktion auf ein eingegebenes Bild von einem Fahrzeugsensor 115 einen Anhängerwinkel 504 ausgibt. Wie vorstehend erörtert, gibt ein Anhängerwinkel 504 einen Winkel an, den eine parallel zur Fahrtrichtung des Fahrzeugs 105 gebildete Fahrzeugachse mit einer parallel zur Fahrtrichtung der Räder des Anhängers gebildeten Anhängerachse bildet. Der Anhängerwinkel 504 kann an einem Anbringungspunkt des Anhängers an dem Fahrzeug 105 gemessen werden, zum Beispiel an der Anhängerkupplung. Der Anhängerwinkel 504 beschreibt die Richtung, in die sich der Anhänger als Reaktion auf ein Zurücksetzen des Fahrzeugs 105 in eine durch die Lenkung, die Bremsen und den Antriebsstrang des Fahrzeugs bestimmte Richtung bewegen wird. Ein Computer 110 in einem Fahrzeug kann auf Grundlage des Anhängerwinkels die passenden Befehle bestimmen, die an Steuerungen für die Lenkung, die Bremsen und den Antriebsstrang des Fahrzeugs zu senden sind, um den Anhänger an einen gewünschten Standort, zum Beispiel in eine Parklücke, zu bewegen.In examples where the deep
Bei Block 615 vergleicht das Wahrnehmungsnetzwerk 405 die epistemische Unsicherheit mit einem Schwellenwert für die epistemische Unsicherheit. Wenn die epistemische Unsicherheit größer als der Schwellenwert für die epistemische Unsicherheit ist, werden die Daten bei Block 620 dem neuronalen Netzwerk 410 zur Detektion ungesehener Szenarien bereitgestellt. Wenn die epistemische Unsicherheit kleiner oder gleich dem Schwellenwert für die epistemische Unsicherheit ist, kehrt der Prozess 600 zu Block 605 zurück. In Beispielen, in denen die epistemische Unsicherheit kleiner oder gleich dem Schwellenwert für die epistemische Unsicherheit ist, können die vorhergesagten Objekte an einen Computer 110 in einem Fahrzeug 105 ausgegeben und zum Betreiben des Fahrzeugs 105 verwendet werden.At
Bei Block 625 segmentiert der Segmentierer 415 die Daten in einen Vordergrundteil und einen Hintergrundteil. Der Vordergrundteil kann dem Vordergrund-Autoencoder 420 bereitgestellt werden und der Hintergrundteil kann dem Hintergrund-Autoencoder 425 bereitgestellt werden. Bei Block 630 berechnet der Vordergrund-Autoencoder 420 eine epistemische Unsicherheit des Vordergrunds, indem er einen rekonstruierten Vordergrundteil mit dem eingegebenen Vordergrundteil vergleicht. Bei Block 635 bestimmt der Vordergrund-Autoencoder 420 auf Grundlage eines Vergleichs der epistemischen Unsicherheit des Vordergrunds mit dem Schwellenwert für die epistemische Unsicherheit des Vordergrunds, ob der Vordergrundteil eine ungesehene Objektklasse beinhaltet. Zum Beispiel klassifiziert der Vordergrund-Autoencoder 420 die Eingabedaten als eine ungesehene Objektklasse beinhaltend, wenn die epistemische Unsicherheit des Vordergrunds größer als der Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist. Bei Block 640 veranlasst der Vordergrund-Autoencoder 420 das Wahrnehmungsnetzwerk 405 dazu, die bei Block 605 empfangenen Eingabedaten an den Server 145 zu übertragen, damit das Wahrnehmungsnetzwerk 405 mit Daten trainiert werden kann, welche die ungesehene Objektklasse beinhalten, und der Prozess 600 endet. In einigen Fällen können Daten, welche die ungesehene Objektklasse beinhalten, vor dem Training mit einer entsprechenden Objektklasse markiert werden.At
Bei Block 645 berechnet der Hintergrund-Autoencoder 425 eine epistemische Unsicherheit des Hintergrunds. Bei Block 650 bestimmt der Hintergrund-Autoencoder 425 auf Grundlage eines Vergleichs der epistemischen Unsicherheit des Hintergrunds mit dem Schwellenwert für die epistemische Unsicherheit des Hintergrunds, ob der Hintergrundteil einen ungesehenen Hintergrundinhalt beinhaltet. Zum Beispiel klassifiziert der Hintergrund-Autoencoder 425 die Eingabedaten als einen ungesehenen Hintergrundinhalt beinhaltend, wenn die epistemische Unsicherheit des Hintergrunds größer als der Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist. Bei Block 655 veranlasst der Hintergrund-Autoencoder 425 das Wahrnehmungsnetzwerk 405 dazu, die bei Block 605 empfangenen Eingabedaten an den Server 145 zu übertragen, damit das Wahrnehmungsnetzwerk 405 mit Daten trainiert werden kann, die den ungesehenen Hintergrundinhalt beinhalten, und der Prozess 600 endet. In einigen Fällen können Daten, die den ungesehenen Hintergrundinhalt beinhalten, vor dem Training mit einer entsprechenden Hintergrundinhaltmarkierung markiert werden.At
Bei Block 660 versieht das Wahrnehmungsnetzwerk 405 die bei Block 605 empfangenen Eingabedaten mit einem Flag zur manuellen Überprüfung und überträgt die mit dem Flag versehenen Eingabedaten an den Server 145. Wenn die epistemische Unsicherheit sowohl für den Vordergrund- als auch für den Hintergrundinhalt jeweils innerhalb des Schwellenwerts liegt, die durch das Wahrnehmungsnetzwerk 405 bestimmte epistemische Gesamtunsicherheit aber trotzdem höher als erwartet ist, werden diese Bilder mit einem Flag zur manuellen Überprüfung und zum manuellen Verstehen versehen. In diesem Fall waren die epistemische Unsicherheit des Vordergrunds und die epistemische Unsicherheit des Hintergrunds kleiner oder gleich dem jeweiligen Schwellenwert für die epistemische Unsicherheit, was angibt, dass die Autoencoder 420, 425 zuvor mit Daten trainiert wurden, die den segmentierten Teilen entsprachen, ist die epistemische Gesamtunsicherheit, die durch das Wahrnehmungsnetzwerk 405 bestimmt wurde, aber größer als ein Schwellenwert. In diesem Fall können die Bilddaten über das Netzwerk 135 an einen Server 145 übertragen werden. Der Server 145 kann die Bilddaten verwenden, um zum Beispiel das Wahrnehmungsnetzwerk 405 und das neuronale Netzwerk 410 zur Detektion ungesehener Szenarien neu zu trainieren. Der Prozess 600 endet dann.At block 660, the
Im Allgemeinen können die beschriebenen Rechensysteme und/oder -vorrichtungen ein beliebiges einer Reihe von Computerbetriebssystemen einsetzen, einschließlich unter anderem Versionen und/oder Varianten der Anwendung Ford Sync®, der Middleware AppLink/Smart Device Link, des Betriebssystems Microsoft Automotive®, des Betriebssystems Microsoft Windows®, des Betriebssystems Unix (z. B. des Betriebssystems Solaris®, vertrieben durch die Oracle Corporation in Redwood Shores, Kalifornien), des Betriebssystems AIX UNIX, vertrieben durch International Business Machines in Armonk, New York, des Betriebssystems Linux, der Betriebssysteme Mac OSX und iOS, vertrieben durch die Apple Inc. in Cupertino, Kalifornien, des BlackBerry OS, vertrieben durch die Blackberry, Ltd. in Waterloo, Kanada, und des Betriebssystems Android, entwickelt durch die Google, Inc. und die Open Handset Alliance, oder QNX® CAR Platform for Infotainment, angeboten durch QNX Software Systems. Beispiele für Rechenvorrichtungen beinhalten unter anderem folgende: einen Fahrzeugbordcomputer, eine Computer-Workstation, einen Server, einen Desktop-, Notebook-, Laptop- oder Handheld-Computer oder ein anderes Rechensystem und/oder eine andere Rechenvorrichtung.In general, the computing systems and/or devices described may employ any of a number of computer operating systems, including, but not limited to, versions and/or variants of the Ford Sync® application, the AppLink/Smart Device Link middleware, the Microsoft Automotive® operating system, the Microsoft operating system Windows®, the Unix operating system (e.g. the Solaris® operating system, distributed by Oracle Corporation in Redwood Shores, California), the AIX UNIX operating system, distributed by International Business Machines in Armonk, New York, the Linux operating system, the Mac OSX and iOS operating systems, distributed by Apple Inc. in Cupertino, California, the BlackBerry OS, distributed by the Blackberry, Ltd. in Waterloo, Canada, and the Android operating system, developed by Google, Inc. and the Open Handset Alliance, or QNX® CAR Platform for Infotainment, offered by QNX Software Systems. Examples of computing devices include, but are not limited to, the following: a vehicle onboard computer, a computer workstation, a server, a desktop, notebook, laptop or handheld computer or other computing system and/or other computing device.
Computer und Rechenvorrichtungen beinhalten im Allgemeinen computerausführbare Anweisungen, wobei die Anweisungen durch eine oder mehrere Rechenvorrichtungen ausführbar sein können, wie etwa durch die vorstehend aufgeführten. Computerausführbare Anweisungen können von Computerprogrammen zusammengestellt oder ausgewertet werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -technologien erstellt werden, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Matlab, Simulink, Stateflow, Visual Basic, Java Script, Perl, HTMI, usw. Einige dieser Anwendungen können auf einer virtuellen Maschine zusammengestellt und ausgeführt werden, wie etwa der Java Virtual Machine, der Dalvik Virtual Machine oder dergleichen. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, einschließlich eines oder mehrerer der in dieser Schrift beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung vielfältiger computerlesbarer Medien gespeichert und übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.Computers and computing devices generally include computer-executable instructions, which instructions may be executable by one or more computing devices, such as those listed above. Computer-executable instructions may be compiled or evaluated by computer programs created using a variety of programming languages and/or technologies, including, but not limited to, and either alone or in combination, Java™, C, C++, Matlab, Simulink, Stateflow, Visual Basic , Java Script, Perl, HTML, etc. Some of these applications can be compiled and executed on a virtual machine, such as the Java Virtual Machine, the Dalvik Virtual Machine or the like. In general, a processor (e.g. a microprocessor) receives instructions, e.g. B. from memory, a computer-readable medium, etc., and executes those instructions, thereby performing one or more processes, including one or more of the processes described in this document. Such instructions and other data may be stored and transmitted using a variety of computer-readable media. A file in a computing device is generally a collection of data stored on a computer-readable medium such as a storage medium, random access memory, etc.
Ein Speicher kann ein computerlesbares Medium (auch als prozessorlesbares Medium bezeichnet) beinhalten, das ein beliebiges nichttransitorisches (z. B. physisches) Medium beinhaltet, das am Bereitstellen von Daten (z. B. Anweisungen) beteiligt ist, die durch einen Computer (z. B. durch einen Prozessor eines Computers) ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien und flüchtiger Medien. Nichtflüchtige Medien können zum Beispiel Bild- und Magnetplatten und sonstige dauerhafte Speicher beinhalten. Zu flüchtigen Medien kann zum Beispiel ein dynamischer Direktzugriffsspeicher (dynamic random-access memory - DRAM) gehören, der üblicherweise einen Hauptspeicher darstellt. Derartige Anweisungen können durch ein oder mehrere Übertragungsmedien übertragen werden, einschließlich Koaxialkabeln, Kupferdraht und Glasfaser, einschließlich der Drähte, aus denen ein Systembus besteht, der mit einem Prozessor einer ECU gekoppelt ist. Gängige Formen computerlesbarer Medien beinhalten zum Beispiel Folgendes: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer ausgelesen werden kann.Memory may include a computer-readable medium (also referred to as a processor-readable medium), which includes any non-transitory (e.g., physical) medium that is involved in providing data (e.g., instructions) that can be read by a computer (e.g., . B. can be read by a processor of a computer). Such media may take many forms, including, but not limited to, non-volatile media and volatile media. Non-volatile media can include, for example, image and magnetic disks and other permanent storage devices. Volatile media may include, for example, dynamic random-access memory (DRAM), which typically represents main memory. Such instructions may be transmitted through one or more transmission media, including coaxial cables, copper wire, and fiber optics, including the wires that make up a system bus coupled to a processor of an ECU. Common forms of computer-readable media include, for example, the following: a floppy disk, a foil storage disk, a hard drive, a magnetic tape, any other magnetic medium, a CD-ROM, a DVD, any other optical medium, punched cards, punched tape, any other physical medium with hole patterns, a RAM, a PROM, an EPROM, a FLASH-EEPROM, any other memory chip or any other memory cartridge or any other medium that can be read by a computer.
Datenbanken, Datendepots oder andere Datenspeicher, die in dieser Schrift beschrieben sind, können verschiedene Arten von Mechanismen zum Speichern von, Zugreifen auf und Abrufen von verschiedenen Arten von Daten beinhalten, darunter eine hierarchische Datenbank, einen Satz von Dateien in einem Dateisystem, eine Anwendungsdatenbank in einem anwendereigenen Format, ein relationales Datenbankverwaltungssystem (relational database management system - RDBMS) usw. Jeder derartige Datenspeicher ist im Allgemeinen in einer Rechenvorrichtung beinhaltet, die ein Computerbetriebssystem einsetzt, wie etwa eines der vorstehend erwähnten, wobei auf eine oder mehrere von vielfältigen Weisen über ein Netzwerk darauf zugegriffen wird. Auf ein Dateisystem kann von einem Computerbetriebssystem zugegriffen werden und es kann Dateien beinhalten, die in verschiedenen Formaten gespeichert sind. Ein RDBMS setzt im Allgemeinen die Structured Query Language (SQL) zusätzlich zu einer Sprache zum Erstellen, Speichern, Editieren und Ausführen gespeicherter Prozeduren ein, wie etwa die vorstehend erwähnte PL/SQL-Sprache, ein.Databases, data repositories or other data stores described in this document may include various types of mechanisms for storing, accessing and retrieving various types of data, including a hierarchical database, a set of files in a file system, an application database in a user's own format, a relational database management system (RDBMS), etc. Each such data store is generally included in a computing device employing a computer operating system, such as one of those mentioned above, in one or more of a variety of ways via a network is accessed. A file system can be accessed by a computer operating system and can contain files stored in various formats. An RDBMS generally employs the Structured Query Language (SQL) in addition to a language for creating, storing, editing, and executing stored procedures, such as the PL/SQL language mentioned above.
In einigen Beispielen können Systemelemente als computerlesbare Anweisungen (z. B. Software) auf einer oder mehreren Rechenvorrichtungen (z. B. Servern, Personal Computern usw.) umgesetzt sein, die auf zugehörigen computerlesbaren Medien (z. B. Platten, Speichern usw.) gespeichert sind. Ein Computerprogrammprodukt kann derartige auf computerlesbaren Medien gespeicherte Anweisungen zum Ausführen der in dieser Schrift beschriebenen Funktionen umfassen.In some examples, system elements may be implemented as computer-readable instructions (e.g., software) on one or more computing devices (e.g., servers, personal computers, etc.) stored on associated computer-readable media (e.g., disks, memories, etc.). ) are stored. A computer program product may include such instructions stored on computer-readable media for performing the functions described in this document.
Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren, Heuristiken usw. versteht es sich, dass, auch wenn die Schritte derartiger Prozesse usw. als gemäß einer bestimmten Reihenfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden können, dass die beschriebenen Schritte in einer Reihenfolge durchgeführt werden, die von der in dieser Schrift beschriebenen Reihenfolge abweicht. Es versteht sich ferner, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse in dieser Schrift beschriebene Schritte weggelassen werden können. Anders ausgedrückt dienen die Beschreibungen von Prozessen in dieser Schrift dem Zweck der Veranschaulichung gewisser Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die Patentansprüche einschränken.With respect to the media, processes, systems, procedures, heuristics, etc. described in this document, it is to be understood that although the steps of such processes, etc. have been described as occurring in a particular order, such processes may be implemented in such a way that the steps described are carried out in an order that differs from the order described in this document. It is further understood that certain steps may be performed simultaneously, other steps may be added, or certain steps described herein may be omitted. In other words, the descriptions of processes in this document are for the purpose of illustrating certain embodiments and should in no way be construed as limiting the claims.
Dementsprechend versteht es sich, dass die vorstehende Beschreibung veranschaulichend und nicht einschränkend sein soll. Viele Ausführungsformen und Anwendungen, bei denen es sich nicht um die bereitgestellten Beispiele handelt, werden dem Fachmann beim Lesen der vorstehenden Beschreibung ersichtlich. Der Umfang der Erfindung sollte nicht unter Bezugnahme auf die vorstehende Beschreibung festgelegt werden, sondern stattdessen unter Bezugnahme auf die beigefügten Patentansprüche zusammen mit dem vollständigen Umfang von Äquivalenten, zu denen derartige Ansprüche berechtigen. Es wird erwartet und ist beabsichtigt, dass es zukünftige Entwicklungen im in dieser Schrift erörterten Stand der Technik geben wird und dass die offenbarten Systeme und Verfahren in derartige zukünftige Ausführungsformen aufgenommen werden. Insgesamt versteht es sich, dass die Erfindung modifiziert und variiert werden kann und ausschließlich durch die folgenden Patentansprüche eingeschränkt ist.Accordingly, it is to be understood that the foregoing description is intended to be illustrative and not restrictive. Many embodiments and applications other than the examples provided will become apparent to those skilled in the art upon reading the foregoing description. The scope of the invention should be determined not with reference to the foregoing description, but rather with reference to the appended claims, together with the full scope of equivalents to which such claims are entitled. It is expected and intended that there will be future developments in the prior art discussed in this document and that the systems and methods disclosed will be incorporated into such future embodiments. Overall, it is to be understood that the invention may be modified and varied and is limited solely by the following claims.
Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern in dieser Schrift nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel, wie etwa „ein“, „eine“, „der“, „die“, „das“ usw., dahingehend auszulegen, dass ein oder mehrere der angegebenen Elemente genannt werden, sofern ein Patentanspruch nicht eine ausdrückliche gegenteilige Einschränkung nennt.All expressions used in the patent claims are intended to have their general and ordinary meaning as understood by those skilled in the art, unless expressly stated otherwise in this document. In particular, the use of the singular articles, such as "a", "an", "the", "the", "that", etc., is to be construed as meaning that one or more of the specified elements are mentioned, unless a patent claim expressly states this states the opposite restriction.
Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das einen Computer aufweist, der einen Prozessor und einen Speicher beinhaltet, wobei der Speicher Anweisungen beinhaltet, die durch den Prozessor derart ausführbar sind, dass der Prozessor für Folgendes programmiert ist: Verarbeiten von Fahrzeugsensordaten mithilfe eines tiefen neuronalen Netzwerks, um auf Grundlage der Fahrzeugsensordaten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht; dann, wenn bestimmt wurde, dass die Objektunsicherheit größer als ein Unsicherheitsschwellenwert ist: Segmentieren der Fahrzeugsensordaten in einen Vordergrundteil und einen Hintergrundteil; Klassifizieren des Vordergrundteils als eine ungesehene Objektklasse beinhaltend, wenn eine epistemische Unsicherheit des Vordergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist; Klassifizieren des Hintergrundteils als einen ungesehenen Hintergrund beinhaltend, wenn eine epistemische Unsicherheit des Hintergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist; und Übertragen der Daten und einer Datenklassifizierung an einen Server.According to the present invention, there is provided a system comprising a computer including a processor and a memory, the memory including instructions executable by the processor such that the processor is programmed to: process vehicle sensor data using a deep neural network to generate a prediction indicating one or more objects based on the vehicle sensor data and to determine an object uncertainty corresponding to the prediction; then, if it is determined that the object uncertainty is greater than an uncertainty threshold: segmenting the vehicle sensor data into a foreground part and a background part; classifying the foreground part as containing an unseen object class if an epistemic uncertainty of the foreground is greater than a threshold for the epistemic uncertainty of the foreground; classifying the background part as containing an unseen background if an epistemic uncertainty of the background is greater than a threshold for the epistemic uncertainty of the background; and transmitting the data and a data classification to a server.
Gemäß einer Ausführungsform ist der Prozessor ferner dazu programmiert, ein Fahrzeug auf Grundlage der Vorhersage zu betreiben, die ein oder mehrere Objekte angibt.According to one embodiment, the processor is further programmed to operate a vehicle based on the prediction indicating one or more objects.
Gemäß einer Ausführungsform ist die Objektunsicherheit eine Wahrscheinlichkeit, dass die Vorhersage, die ein oder mehrere Objekte angibt, das eine oder die mehreren Objekte korrekt identifiziert.According to one embodiment, the object uncertainty is a probability that the prediction specifying one or more objects correctly identifies the one or more objects.
Gemäß einer Ausführungsform ist die epistemische Unsicherheit des Vordergrunds ein probabilistisches Maß dafür, wie gut das eine oder die mehreren Objekte in einer Trainingsdatenverteilung dargestellt sind.According to one embodiment, foreground epistemic uncertainty is a probabilistic measure of how well the one or more objects are represented in a training data distribution.
Gemäß einer Ausführungsform ist die epistemische Unsicherheit des Hintergrunds ein probabilistisches Maß dafür, wie gut Rauschfaktoren in einer Trainingsdatenverteilung dargestellt sind, wobei Rauschfaktoren Wetterbedingungen, Beleuchtungsbedingungen und Oberflächenbedingungen beinhalten.According to one embodiment, background epistemic uncertainty is a probabilistic measure of how well noise factors are represented in a training data distribution, where noise factors include weather conditions, lighting conditions, and surface conditions.
Gemäß einer Ausführungsform ist der Prozessor ferner für Folgendes programmiert: Zuordnen einer latenten Darstellung zu dem Vordergrundteil; Zuordnen einer Rekonstruktion des Vordergrundteils zu der latenten Darstellung; und Bestimmen der epistemische Unsicherheit des Vordergrunds auf Grundlage eines Vergleichs eines rekonstruierten Vordergrundteils mit dem Vordergrundteil.According to one embodiment, the processor is further programmed to: associate a latent representation with the foreground portion; Assigning a reconstruction of the foreground part to the latent representation; and determining the epistemic uncertainty of the foreground based on a comparison of a reconstructed foreground part with the foreground part.
Gemäß einer Ausführungsform ist der Prozessor ferner für Folgendes programmiert: Zuordnen einer latenten Darstellung zu dem Hintergrundteil; Zuordnen einer Rekonstruktion des Hintergrundteils zu der latenten Darstellung; und Bestimmen der epistemischen Unsicherheit des Hintergrunds auf Grundlage eines Vergleichs eines rekonstruierten Hintergrundteils mit dem Hintergrundteil.According to one embodiment, the processor is further programmed to: associate a latent representation with the background part; associating a reconstruction of the background part with the latent representation; and determining the epistemic uncertainty of the background based on location of a comparison of a reconstructed background part with the background part.
Gemäß einer Ausführungsform umfassen die Fahrzeugsensordaten mindestens eines von einem Bild oder einer Punktwolke.According to one embodiment, the vehicle sensor data includes at least one of an image or a point cloud.
Gemäß einer Ausführungsform beinhaltet das tiefe neuronale Netzwerk ein probabilistisches neuronales Netzwerk.According to one embodiment, the deep neural network includes a probabilistic neural network.
Gemäß einer Ausführungsform ist der Prozessor ferner dazu programmiert, die Fahrzeugsensordaten über einen Segmentierer über eine Segmentierungsmaske in den Vordergrundteil und den Hintergrundteil zu segmentieren.According to one embodiment, the processor is further programmed to segment the vehicle sensor data into the foreground part and the background part via a segmenter via a segmentation mask.
Gemäß einer Ausführungsform umfasst die Segmentierungsmaske eine binäre Maske, die Objekte in den Fahrzeugsensordaten klassifiziert, wobei die klassifizierten Objekte dem Vordergrundteil zugewiesen werden.According to one embodiment, the segmentation mask includes a binary mask that classifies objects in the vehicle sensor data, wherein the classified objects are assigned to the foreground part.
Gemäß einer Ausführungsform umfasst der Segmentierer ein neuronales Maske-R-Faltungsnetzwerk (Maske-R-CNN).According to one embodiment, the segmenter includes a Mask-R convolutional neural network (Mask-R-CNN).
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Verarbeiten von Fahrzeugsensordaten mithilfe eines tiefen neuronalen Netzwerks beinhaltet, um auf Grundlage der Daten eine Vorhersage zu erzeugen, die ein oder mehrere Objekte angibt, und eine Objektunsicherheit zu bestimmen, die der Vorhersage entspricht; wenn die Objektunsicherheit größer als ein Unsicherheitsschwellenwert ist: Segmentieren der Fahrzeugsensordaten in einen Vordergrundteil und einen Hintergrundteil; Klassifizieren des Vordergrundteils als eine ungesehene Objektklasse beinhaltend, wenn eine epistemische Unsicherheit des Vordergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Vordergrunds ist; Klassifizieren des Hintergrundteils als einen ungesehenen Hintergrund beinhaltend, wenn eine epistemische Unsicherheit des Hintergrunds größer als ein Schwellenwert für die epistemische Unsicherheit des Hintergrunds ist; und Übertragen der Daten und einer Datenklassifizierung an einen Server.According to the present invention, a method includes: processing vehicle sensor data using a deep neural network to generate, based on the data, a prediction indicating one or more objects and determining an object uncertainty corresponding to the prediction; if the object uncertainty is greater than an uncertainty threshold: segmenting the vehicle sensor data into a foreground part and a background part; classifying the foreground part as containing an unseen object class if an epistemic uncertainty of the foreground is greater than a threshold for the epistemic uncertainty of the foreground; classifying the background part as containing an unseen background if an epistemic uncertainty of the background is greater than a threshold for the epistemic uncertainty of the background; and transmitting the data and a data classification to a server.
In einem Aspekt der Erfindung wird ein Fahrzeug auf Grundlage der Vorhersage betrieben, die ein oder mehrere Objekte angibt.In one aspect of the invention, a vehicle is operated based on the prediction indicating one or more objects.
In einem Aspekt der Erfindung ist die Objektunsicherheit eine Wahrscheinlichkeit, dass die Vorhersage, die ein oder mehrere Objekte angibt, das eine oder die mehreren Objekte korrekt identifiziert.In one aspect of the invention, object uncertainty is a probability that the prediction specifying one or more objects correctly identifies the one or more objects.
In einem Aspekt der Erfindung ist die epistemische Unsicherheit des Vordergrunds ein probabilistisches Maß dafür, wie gut das eine oder die mehreren Objekte in einer Trainingsdatenverteilung dargestellt sind.In one aspect of the invention, foreground epistemic uncertainty is a probabilistic measure of how well the one or more objects in a training data distribution are represented.
In einem Aspekt der Erfindung ist die epistemische Unsicherheit des Hintergrunds ein probabilistisches Maß dafür, wie gut Rauschfaktoren in einer Trainingsdatenverteilung dargestellt sind, wobei Rauschfaktoren Wetterbedingungen, Beleuchtungsbedingungen und Oberflächenbedingungen beinhalten.In one aspect of the invention, background epistemic uncertainty is a probabilistic measure of how well noise factors are represented in a training data distribution, where noise factors include weather conditions, lighting conditions, and surface conditions.
In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Zuordnen einer latenten Darstellung zu dem Vordergrundteil; Zuordnen einer Rekonstruktion des Vordergrundteils zu der latenten Darstellung; und Bestimmen der epistemische Unsicherheit des Vordergrunds auf Grundlage eines Vergleichs des rekonstruierten Vordergrundteils mit dem Vordergrundteil.In one aspect of the invention, the method includes: associating a latent representation with the foreground part; Assigning a reconstruction of the foreground part to the latent representation; and determining the epistemic uncertainty of the foreground based on a comparison of the reconstructed foreground part with the foreground part.
In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Zuordnen einer latenten Darstellung zu dem Hintergrundteil; Zuordnen einer Rekonstruktion des Hintergrundteils zu der latenten Darstellung; und Bestimmen der epistemische Unsicherheit des Hintergrunds auf Grundlage eines Vergleichs des rekonstruierten Hintergrundteils mit dem Hintergrundteil.In one aspect of the invention, the method includes: associating a latent representation with the background part; associating a reconstruction of the background part with the latent representation; and determining the epistemic uncertainty of the background based on a comparison of the reconstructed background part with the background part.
In einem Aspekt der Erfindung umfassen die Fahrzeugsensordaten mindestens eines von einem Bild oder einer Punktwolke.In one aspect of the invention, the vehicle sensor data includes at least one of an image or a point cloud.
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022111716.2A DE102022111716A1 (en) | 2022-05-10 | 2022-05-10 | CLASSIFICATION OF AN UNSEEN ENVIRONMENT |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022111716.2A DE102022111716A1 (en) | 2022-05-10 | 2022-05-10 | CLASSIFICATION OF AN UNSEEN ENVIRONMENT |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102022111716A1 true DE102022111716A1 (en) | 2023-11-16 |
Family
ID=88510107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102022111716.2A Pending DE102022111716A1 (en) | 2022-05-10 | 2022-05-10 | CLASSIFICATION OF AN UNSEEN ENVIRONMENT |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102022111716A1 (en) |
-
2022
- 2022-05-10 DE DE102022111716.2A patent/DE102022111716A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018121595B4 (en) | UNSUPERVISED TRAINING OF AGENTS FOR AUTONOMOUS DRIVING APPLICATIONS | |
CN107697070B (en) | Driving behavior prediction method and device and unmanned vehicle | |
DE102020117376A1 (en) | GENERATION OF A VEHICLE IMAGE | |
DE102021108470A1 (en) | REALISTIC PICTURE PERSPECTIVE TRANSFORMATION USING NEURAL NETWORKS | |
DE102021104044A1 (en) | NEURAL NETWORK FOR POSITIONING AND OBJECT DETECTION | |
DE102021128041A1 (en) | IMPROVEMENT OF A VEHICLE NEURAL NETWORK | |
DE102020128978A1 (en) | TRAINING DEEP NEURAL NETWORKS WITH SYNTHETIC IMAGES | |
DE102020122086A1 (en) | MEASURING CONFIDENCE IN DEEP NEURAL NETWORKS | |
DE102021131991A1 (en) | VEHICLE SENSOR CLEANING AND COOLING | |
DE102020107149A1 (en) | VEHICLE CAPSULE NETWORKS | |
DE102021112616A1 (en) | SELF-MONITORED ESTIMATION OF A WATCHED VEHICLE FLOAT | |
DE102022100545A1 (en) | IMPROVED OBJECT RECOGNITION | |
DE102021104184A1 (en) | VEHICLE CONTROL SYSTEM | |
DE102022123187A1 (en) | Adaptive reduction of neural network systems | |
DE102022108656A1 (en) | NEURAL QUANTILE NETWORK | |
DE102021114724A1 (en) | IMPROVED VEHICLE OPERATION | |
DE102021122407A1 (en) | SEGMENTATION AND CLASSIFICATION OF POINT CLOUD DATA | |
DE102021201178A1 (en) | COMPUTER-IMPLEMENTED PROCEDURE FOR GENERATION OF RELIABILITY INDICATIONS FOR COMPUTERVISION | |
DE102021104178A1 (en) | DYNAMICALLY ROUTED FIELD DISCRIMINATOR | |
DE102023209384A1 (en) | SYSTEM AND METHOD FOR DISTRIBUTION-AWARENESS TARGET PREDICTION FOR MODULAR AUTONOMOUS VEHICLE CONTROL | |
DE102020127051A1 (en) | Method for determining safety-critical output values using a data analysis device for a technical entity | |
US11745766B2 (en) | Unseen environment classification | |
DE102021131484A1 (en) | MEASURING TRUST IN DEEP NEURAL NETWORKS | |
DE102021134645A1 (en) | RETRAINING NEURAL NETWORK IN REAL TIME | |
DE102020127253A1 (en) | QUANTIFYING PHOTOREALISM IN SIMULATED DATA WITH GAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R082 | Change of representative |
Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE |