DE102020133626A1

DE102020133626A1 - Method for recognizing scenes, assistance devices and motor vehicles which are difficult to classify correctly for a neural network

Info

Publication number: DE102020133626A1
Application number: DE102020133626.8A
Authority: DE
Inventors: Christopher Kuhn; Goran Petrovic; Markus Hofbauer; Eckehard Steinbach
Original assignee: Bayerische Motoren Werke AG; Technische Universitaet Muenchen
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-06-15

Abstract

Die Erfindung betrifft ein Verfahren (26) zum Erkennen von für ein neuronales Netz (14) schwierig korrekt zu klassifizierenden Szenen. Die Erfindung betrifft weiter eine entsprechende Assistenzeinrichtung (12, 30; 38) sowie ein damit ausgestattetes Kraftfahrzeug (34). Bei dem Verfahren wird ein die jeweilige Szene darstellendes Inputbild (16) mittels des neuronalen Netzes (14) unter Erzeugen eines zugehörigen Verarbeitungsergebnisses (20, 24) verarbeitet. Das Inputbild (16) und das zugehörige Verarbeitungsergebnissen (20, 24) werden einer Erkennungseinrichtung (12, 30) bereitgestellt, in der eine Zuordnung von Verarbeitungsergebnissen (20, 24) zu Bilddaten (16) die in der Vergangenheit korrekterweise in diesen Verarbeitungsergebnissen (20, 24) resultiert haben, hinterlegt ist. Durch die Erkennungseinrichtung (12, 30) werden ausgehend von dem jeweiligen Verarbeitungsergebnis (20, 24) zugehörige anhand der hinterlegten Zuordnung hinterlegte rekonstruierte Bilddaten (28) mit dem jeweiligen Inputbild (16) verglichen. Bei einer Abweichung dazwischen wird dann die jeweilige Szene als schwierig korrekt zu klassifizieren erkannt.The invention relates to a method (26) for recognizing scenes that are difficult for a neural network (14) to classify correctly. The invention further relates to a corresponding assistance device (12, 30; 38) and a motor vehicle (34) equipped therewith. In the method, an input image (16) representing the respective scene is processed by means of the neural network (14) while generating an associated processing result (20, 24). The input image (16) and the associated processing results (20, 24) are made available to a recognition device (12, 30), in which an assignment of processing results (20, 24) to image data (16) that was correctly present in these processing results (20th , 24) have resulted. Based on the respective processing result (20, 24), the recognition device (12, 30) compares associated reconstructed image data (28) stored using the stored assignment with the respective input image (16). If there is a discrepancy between them, the respective scene is then recognized as being difficult to classify correctly.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum automatischen Erkennen von für ein künstliches neuronales Netz schwierig korrekt zu klassifizierenden Szenen bzw. entsprechenden Bildern. Die Erfindung betrifft weiter eine Assistenzeinrichtung zum Durchführen eines solchen Verfahrens und ein damit ausgestattetes Kraftfahrzeug.The present invention relates to a method for the automatic recognition of scenes or corresponding images which are difficult to correctly classify for an artificial neural network. The invention further relates to an assistance device for carrying out such a method and a motor vehicle equipped with it.

Künstliche neuronale Netze können mittlerweile zu vielerlei unterschiedlichen Zwecken eingesetzt werden, sind dabei jedoch nach wie vor nicht immer einhundertprozentig zuverlässig. Künstliche neuronale Netze können also Fehler machen, beispielsweise wenn sie einen neuen, also nicht aus einem Training des neuronalen Netzes bekannten, oder ungewöhnlichen Input verarbeiten sollen. Es kann insbesondere problematisch sein, wenn ein solcher Input außerhalb einer Domäne oder Verteilung liegt, für die das jeweilige neuronale Netz trainiert wurde. Da in solchen Fällen ein jeweiliger Output oder eine jeweilige Entscheidung des neuronalen Netzes nicht verlässlich ist, sind hier Maßnahmen zur Absicherung ebenso wie die grundsätzliche Verbesserung der Genauigkeit künstlicher neuronaler Netze wünschenswert.Artificial neural networks can now be used for many different purposes, but they are still not always 100% reliable. Artificial neural networks can therefore make mistakes, for example when they are supposed to process a new input, i.e. one that is not known from training the neural network, or an unusual input. It can be particularly problematic when such an input lies outside of a domain or distribution for which the particular neural network was trained. Since in such cases a respective output or a respective decision of the neural network is not reliable, measures for safeguarding as well as the fundamental improvement of the accuracy of artificial neural networks are desirable.

Beispielsweise ist in der DE 10 2018 110 369 A1 die Verbesserung autonomer Maschinen durch Cloud, Fehlerkorrektur und Vorhersagen thematisiert. Konkret ist dort eine Einrichtung beschrieben, die eine intelligente Sammlung von Daten und eine intelligente Verwaltung autonomer Maschinen ermöglicht. Diese Einrichtung umfasst eine Erkennungs-/Beobachtungslogik, um einen oder mehrere Sätze von Daten von einer oder mehreren Quellen über ein oder mehrere Netzwerke zu erkennen. Die Einrichtung umfasst weiter eine hybride Berechnungslogik zum Kombinieren einer ersten Berechnung, die lokal an der Einrichtung ausgeführt wird, mit einer zweiten Berechnung, die entfernt an einer entfernten Rechenvorrichtung in Kommunikation mit der Einrichtung über das eine oder die mehreren Netzwerke ausgeführt wird. Dabei verbraucht die erste Berechnung wenig Energie und die zweite Berechnung viel Energie. Damit soll der Problematik Rechnung getragen werden, dass beispielsweise herkömmliche Techniken zum autonomen Fahren, bei denen sämtliche Berechnungen in dem jeweiligen Fahrzeug ausgeführt werden, durch die begrenzte Menge dort verfügbarer Energie limitiert sein können, beispielsweise auch hinsichtlich der Genauigkeit, der Zuverlässigkeit und/oder des Funktionsumfang.For example, in the DE 10 2018 110 369 A1 the improvement of autonomous machines through the cloud, error correction and predictions. Specifically, a device is described there that enables intelligent collection of data and intelligent management of autonomous machines. This facility includes recognition/observation logic to recognize one or more sets of data from one or more sources over one or more networks. The facility further includes hybrid computation logic for combining a first computation performed locally at the facility with a second computation performed remotely at a remote computing device in communication with the facility over the one or more networks. The first calculation uses little energy and the second calculation uses a lot of energy. This is intended to take into account the problem that, for example, conventional technologies for autonomous driving, in which all calculations are carried out in the respective vehicle, can be limited by the limited amount of energy available there, for example also with regard to accuracy, reliability and/or the range of functions.

Ein möglicher Anwendungsfall für neuronale Netze im Bereich der Fahrzeugtechnik bzw. des Verkehrsgeschehens kann etwa in der Erkennung von Verkehrszeichen, Straßenmarkierungen und dergleichen mehr liegen. Auf diesem Gebiet beschreibt beispielsweise die CN 105 809 138 A ein Verfahren zum Detektieren und Identifizieren eines warnenden Verkehrsschildes basierend auf einer Blockidentifizierung. Dabei werden Fahrzeugvideodaten erfasst und in chronologisch angeordnete Bilder zerlegt. Basierend auf erfassten GPS- und die IMU-Daten des Fahrzeugs, die mit einer jeweiligen Aufnahmezeit der Bilder korrespondieren, werden die Geschwindigkeit und Lage des Fahrzeugs bestimmt. Nach einer Vorverarbeitung der einzelnen Bilder oder Frames werden diese aus dem RGB-Farbraum in den HSV-Farbraum konvertiert, um eine größere Ähnlichkeit mit dem menschlichen Sehsystem zu erhalten. Anschließend werden eine schwellenwertbasierte Farbsegmentierung und Binarisierung durchgeführt und isolierte Punkte in den entsprechenden binären Bildern entfernt. Anhand von Konturinformationen verbleibender verbundener Regionen wird eine grobe Interessenregion, in der das jeweilige Verkehrszeichen abgebildet ist, bestimmt. Diese wird gemäß geometrischer Merkmale an die Kontur des Verkehrszeichens angepasst, um eine präzisierte Interessenregion zu bestimmen. Für diese präzisierte Interessenregion werden Segmentierungsmerkmale und HOG-Merkmale (englisch: Histogram of Oriented Gradients) extrahiert, die dann für eine SVM-basierte Klassifizierung miteinander kombiniert werden.A possible application for neural networks in the field of vehicle technology or traffic can be the recognition of traffic signs, road markings and the like. In this area, for example, describes the CN 105 809 138 A a method for detecting and identifying a warning traffic sign based on a block identification. Vehicle video data is recorded and broken down into chronologically arranged images. The speed and position of the vehicle are determined based on the recorded GPS and IMU data of the vehicle, which correspond to a respective recording time of the images. After pre-processing the individual images or frames, they are converted from the RGB color space to the HSV color space in order to obtain a closer resemblance to the human visual system. It then performs threshold-based color segmentation and binarization, and removes isolated points in the corresponding binary images. Based on contour information of remaining connected regions, a rough region of interest in which each traffic sign is imaged is determined. This is adapted to the contour of the traffic sign according to geometric features in order to determine a more precise region of interest. For this refined region of interest, segmentation features and HOG (Histogram of Oriented Gradients) features are extracted, which are then combined for an SVM-based classification.

Es gibt auch Ansätze, die einen Vergleich von Bildern vorsehen, beispielsweise um zu bestimmen, ob ein bestimmtes Bild ähnlich zu Trainingsbildern ist, um bestimmte Objekte in Bildern zu detektieren oder um Objekte über mehrere Bilder hinweg nachzuverfolgen. Beispielsweise befasst sich die US 2008 / 0 013 837 A1 mit einem Bildvergleich. In dem dort beschriebenen Verfahren wird ein Testbild mit einem Satz von Referenzbildern verglichen. Dazu wird das Testbild in eine oder mehrere Testregionen unterteilt. Jede Testregion wird mit einer oder mehrere Referenzregionen in einem oder mehreren der Referenzbilder verglichen. Dabei wird für jede Testregion diejenige Referenzregion identifiziert, die der Testregion am ähnlichsten ist. Anhand der Vergleiche der Testregionen und der zu diesen korrespondierenden Referenzregionen wird dann ein jeweiliger Vergleichswert generiert.There are also approaches that provide comparison of images, for example to determine whether a particular image is similar to training images, to detect particular objects in images, or to track objects across multiple images. For example, US 2008/0 013 837 A1 deals with an image comparison. In the method described there, a test image is compared with a set of reference images. To do this, the test image is divided into one or more test regions. Each test region is compared to one or more reference regions in one or more of the reference images. The reference region that is most similar to the test region is identified for each test region. A respective comparison value is then generated on the basis of the comparisons of the test regions and the reference regions that correspond to them.

Aufgabe der vorliegenden Erfindung ist es, einen besonders sicheren Einsatz teilautonomer Kl-gestützter Einrichtungen zu ermöglichen.The object of the present invention is to enable a particularly reliable use of semi-autonomous AI-supported devices.

Diese Aufgabe wird erfindungsgemäß durch die Gegenstände der unabhängigen Patentansprüche gelöst. Mögliche Ausgestaltungen und Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Patentansprüchen, in der Beschreibung und in den Figuren angegeben.According to the invention, this object is achieved by the subject matter of the independent patent claims. Possible refinements and developments of the present invention are specified in the dependent patent claims, in the description and in the figures.

Das erfindungsgemäße Verfahren dient zum automatischen Erkennen, also Detektieren von Szenen, deren korrekte Klassifizierung für ein bereitgestelltes künstliches neuronales Netz schwierig, also herausfordernd oder anspruchsvoll ist. Bei derartigen Szenen kann es sich beispielsweise um in entsprechenden Bildern dargestellte Verkehrsszenen, Umgebungen, Situationen oder dergleichen handeln.The method according to the invention is used for the automatic recognition, ie detection, of scenes whose correct classification is difficult, ie challenging or demanding, for an artificial neural network provided. Scenes of this type can be, for example, traffic scenes, surroundings, situations or the like that are shown in corresponding images.

Diese Szenen bzw. die entsprechenden Bilder können für das neuronale Netz beispielsweise deshalb schwierig korrekt zu klassifizieren sein, weil sie außerhalb eines Trainings- oder Expertisebereichs, auch als Anwendungsdomäne (englisch: Operational Domain) bezeichnet, oder außerhalb einer Trainingsverteilung (englisch: Training Distribuition), also einer Verteilung oder eines Spektrums von Szenen bzw. Bildern, die zum Trainieren des neuronalen Netzes verwendet wurden, liegt. Ebenso kann die Szene bzw. das entsprechende Bild zwar an sich innerhalb dieser Domäne oder Verteilung liegen, aber durch sonstige Eigenschaften schwierig korrekt zu klassifizieren sein, sodass es also dennoch tatsächlich oder vermutlich zu einer zumindest teilweisen Fehlklassifikation der Szene bzw. des entsprechenden die jeweilige Szene abbildenden Bildes durch das neuronale Netz kommen kann. Derartige sonstige Eigenschaften können beispielsweise ungewöhnliche Farbkombinationen oder Lichtverhältnisse, Objektverdeckungen und/oder dergleichen mehr sein.These scenes or the corresponding images can be difficult to classify correctly for the neural network, for example, because they are outside of a training or expertise area, also referred to as an application domain (English: operational domain), or outside of a training distribution (English: training distribution). , i.e. a distribution or a spectrum of scenes or images that were used to train the neural network. Likewise, the scene or the corresponding image may actually lie within this domain or distribution, but be difficult to classify correctly due to other properties, so that there is actually or presumably an at least partial misclassification of the scene or the corresponding scene in question imaging image can come through the neural network. Such other properties can be, for example, unusual color combinations or lighting conditions, object occlusions and/or the like.

In dem erfindungsgemäßen Verfahren wird ein jeweiliges die jeweilige Szene darstellendes und dem zur Bildverarbeitung, also zum Klassifizieren von Bildern, trainierten neuronalen Netz bereitgestelltes Inputbild mittels dieses neuronalen Netzes verarbeitet. Bei diesem Verarbeiten erzeugt das neuronale Netz jeweils ein zugehöriges Verarbeitungsergebnis. Ein solches Verarbeitungsergebnis kann je nach Implementierung beispielsweise ein Endergebnis der Verarbeitung, also ein letztendlicher Output des neuronalen Netzes, oder ein Zwischenergebnis, das während des Verarbeitens beispielsweise innerhalb des neuronalen Netzes, anfällt, sein oder umfassen. Dies kann beispielsweise abhängig sein von der jeweiligen Aufgabe, für die das neuronale Netz trainiert ist, von dessen Struktur und/oder dergleichen mehr.In the method according to the invention, a respective input image representing the respective scene and provided to the neural network trained for image processing, ie for classifying images, is processed by means of this neural network. During this processing, the neural network generates an associated processing result in each case. Depending on the implementation, such a processing result can be or include, for example, an end result of the processing, ie a final output of the neural network, or an intermediate result that occurs during the processing, for example within the neural network. This can depend, for example, on the respective task for which the neural network is trained, on its structure and/or the like.

Weiter werden in dem erfindungsgemäßen Verfahren jeweils das Inputbild und das zugehörige, also aus dem jeweiligen Inputbild bzw. beim Verarbeiten des jeweiligen Inputbilds durch das neuronale Netz erzeugte, Verarbeitungsergebnis als Input an eine Erkennungseinrichtung bereitgestellt. In dieser Erkennungseinrichtung ist dabei eine Zuordnung, also eine Abbildung, ein Mapping oder eine Assoziierung, von Verarbeitungsergebnissen des oder eines entsprechenden neuronalen Netzes zu Bilddaten, die in der Vergangenheit bei einer entsprechenden Datenverarbeitung durch das neuronale Netz oder durch ein diesem entsprechendes neuronales Netz korrekterweise in diesen Verarbeitungsergebnissen resultiert haben, hinterlegt, also gespeichert oder repräsentiert. Die Zuordnung kann dabei vorgegeben aber insbesondere gelernt sein, wie an anderer Stelle näher erläutert wird.Furthermore, in the method according to the invention, the input image and the associated processing result, ie the processing result generated from the respective input image or when the respective input image is processed by the neural network, are provided as input to a recognition device. In this recognition device, there is an assignment, i.e. an image, a mapping or an association, of processing results of the neural network or of a corresponding neural network to image data, which in the past were correctly processed by the neural network or by a neural network corresponding to it in have resulted from these processing results, stored, i.e. stored or represented. In this case, the association can be predefined but in particular learned, as will be explained in more detail elsewhere.

Die den unterschiedlichen möglichen Verarbeitungsergebnissen zugeordneten Bilddaten können beispielsweise Bildwerte sein oder umfassen, also beispielsweise bestimmte Pixel-, Farb-, Intensitäts- und/oder Helligkeitswerte. Ebenso können die Bilddaten etwa Bildfragmente sein. Die Bilddaten können in der Vergangenheit also zumindest typischerweise, das heißt etwa bei der Verarbeitung entsprechender Trainings- oder Testbilder, die diesen Bilddaten entsprechen oder diese Bilddaten bzw. Bildwerte aufweisen, zu den zugeordneten Verarbeitungsergebnissen geführt haben. Die Zuordnung gilt dabei für korrekte Verarbeitungsergebnisse, also Fälle, in denen das neuronale Netz jeweilige ihm bereitgestellte Eingangsdaten korrekt klassifiziert hat. The image data associated with the different possible processing results can be or include image values, for example, that is, for example, specific pixel, color, intensity and/or brightness values. The image data can also be image fragments, for example. In the past, the image data can have led to the assigned processing results at least typically, that is to say for example during the processing of corresponding training or test images which correspond to this image data or have this image data or image values. The assignment applies to correct processing results, i.e. cases in which the neural network has correctly classified the respective input data made available to it.

Beispielsweise kann ein Verarbeitungsergebnis eines Teils eines Bildes, das eine Verkehrs- oder Umgebungsszene zeigt, „Himmel“ und ein weiteres Verarbeitungsergebnis für einen anderen Bildteil „Straße“ sein. Dem ersten Verarbeitungsergebnis kann als Bilddaten, also als typischerweise zugrundeliegender Input, beispielsweise „blau“ und/oder „weiß“ zugeordnet sein. Dem zweiten Verarbeitungsergebnis kann hingegen beispielsweise an „grau“ zugeordnet sein. Die Zuordnung kann jedoch nicht nur derartige Farben oder Farbwerte als Bilddaten betreffen, sondern beispielsweise diese auch mit einer bestimmten Position in dem jeweiligen Bild, beispielsweise einer obere Bildhälfte für das erste Verarbeitungsergebnis und eine untere Bildhälfte für das zweite Verarbeitungsergebnis, und/oder dergleichen mehr umfassen oder betreffen. Dies kann beispielsweise abhängig sein von einem jeweiligen konkreten Anwendungsfall oder einer jeweiligen konkreten Implementierung.For example, a processing result of a portion of an image showing a traffic or environmental scene may be "sky" and another processing result for another portion of the image may be "road". The first processing result can be assigned as image data, ie as typically underlying input, for example “blue” and/or “white”. By contrast, the second processing result can be assigned to “grey”, for example. However, the assignment can not only relate to such colors or color values as image data, but also include, for example, these with a specific position in the respective image, for example an upper half of the image for the first processing result and a lower half of the image for the second processing result, and/or the like or concern. This can depend, for example, on a particular specific use case or a particular specific implementation.

Weiter werden in dem erfindungsgemäßen Verfahren durch die Erkennungseinrichtung ausgehend von dem jeweiligen Verarbeitungsergebnis zugehörige jeweils anhand oder gemäß der hinterlegten Zuordnung rekonstruierte, also erzeugte oder bestimmte, Bilddaten mit dem jeweiligen Inputbild bzw. einem entsprechenden Bildbereich oder Pixel des jeweiligen Inputbildes, aus dem das jeweilige Verarbeitungsergebnissen durch das neuronale Netz erzeugt wurde, verglichen. Wird dabei eine Abweichung zwischen den rekonstruierten Bilddaten und dem Inputbild erkannt, so wird - zumindest, wenn diese Abweichung oder Differenz größer als ein vorgegebener Schwellenwert ist und/oder ein vorgegebenes Kriterium erfüllt - die jeweilige Szene bzw. das jeweilige Inputbild als schwierig korrekt zu klassifizierende Szene bzw. als schwierig korrekt zu klassifizierendes Bild erkannt, also eingestuft.Furthermore, in the method according to the invention, the recognition device, starting from the respective processing result, reconstructs, i.e. generates or determines, image data associated with the respective input image or a corresponding image area or pixel of the respective input image from which the respective processing result generated by the neural network is compared. If a discrepancy between the reconstructed image data and the input image is detected, at least if this discrepancy or difference is greater than a given threshold value and/or a predetermined criterion is met - the respective scene or the respective input image is recognized as a scene which is difficult to classify correctly or as an image which is difficult to classify correctly, ie classified.

Mit anderen Worten verarbeitet also das für einen bestimmten, von einer jeweiligen Anwendung abhängigen Zweck trainierte neuronale Netz das jeweilige, ihm als Input zugeführte Bild, wobei sich automatisch das jeweilige Verarbeitungsergebnisses als Output oder Zwischenergebnis ergibt. Die Erkennungseinrichtung vergleicht dann effektiv diesen Output oder dieses Zwischenergebnis bzw. die daraus oder darauf basierend bestimmten oder erzeugten rekonstruierten Bilddaten mit dem ursprünglichen Input, also dem ursprünglichen dem neuronalen Netz zugeführten Bild. Somit wird das Erkennen von tatsächlich für das jeweilige konkrete neuronale Netz schwierig bzw. nicht korrekt zu klassifizierenden Szenen oder Inputbildern basierend auf dem jeweiligen tatsächlichen angefallenen Verarbeitungsergebnis eben dieses neuronalen Netzes selbst durchgeführt. Das Erkennen erfolgt insbesondere also zum Beispiel nicht nur durch einen a priori Vergleich des jeweiligen Inputbildes mit einem zum Trainieren des neuronalen Netzes verwendeten Trainingsdatensatz ohne direkte Involvierung des neuronalen Netzes oder einer durch dieses durchgeführten Datenverarbeitung. Daher erfolgt in dem vorliegenden Verfahren die Erkennung sozusagen aus Sicht des jeweiligen neuronalen Netzes selbst. Die Erkennung, auch als OOD-Erkennung oder -Detektion (englisch: „Out-Of-Domain“ oder „Out-Of-Distribution“) bezeichnet, erfolgt hier also unter Berücksichtigung von tatsächlichen Fähigkeiten bzw. einer sich aus dem Training des neuronalen Netzes ergebenden effektiven Anwendungsdomäne des neuronalen Netzes. Dies hat den Vorteil, dass zum einen der Trainingsdaten Satz nicht als Referenz für den Vergleich vorgehalten werden muss und zum anderen die Anwendungsdomäne, also die Verteilung oder das Spektrum von Daten, für die das neuronale Netz kompetent ist, also korrekte Entscheidungen treffen bzw. korrekte Klassifikationen erzeugen oder ausgeben kann, nicht manuell vorgegeben oder definiert werden muss.In other words, the neural network trained for a specific purpose dependent on a respective application processes the respective image supplied to it as input, with the respective processing result automatically being produced as an output or intermediate result. The recognition device then effectively compares this output or this intermediate result or the reconstructed image data determined or generated from it or based thereon with the original input, ie the original image supplied to the neural network. Scenes or input images that are actually difficult or incorrect to classify for the respective concrete neural network are thus recognized based on the respective actual processing result of precisely this neural network itself. In particular, the recognition does not only take place, for example, by an a priori comparison of the respective input image with a training data set used for training the neural network without direct involvement of the neural network or data processing carried out by it. Therefore, in the present method, the detection takes place, so to speak, from the point of view of the respective neural network itself. The detection, also referred to as OOD detection or detection (English: “Out-Of-Domain” or “Out-Of-Distribution”), takes place in this case, therefore, taking into account actual capabilities or an effective application domain of the neural network resulting from the training of the neural network. This has the advantage that, on the one hand, the training data set does not have to be kept as a reference for the comparison and, on the other hand, the application domain, i.e. the distribution or the spectrum of data, for which the neural network is competent, i.e. making correct decisions or correct ones Can generate or output classifications, does not have to be specified or defined manually.

Damit ist vorteilhafter Weise die Erkennung schwierig korrekt zu klassifizierender Szenen nicht beispielsweise auf neue oder drastisch von dem Trainingsdatensatz verschiedene Szenen oder Inputbilder beschränkt. Vielmehr können auch schwierig korrekt zu klassifizierende Szenen oder Bilder erkannt werden, die augenscheinlich innerhalb der Anwendungsdomäne des neuronalen Netzes liegen sollten, von diesem aber in der Praxis, beispielsweise aufgrund einer oder mehrerer der genannten sonstigen Eigenschaften, dennoch zumindest teilweise falsch klassifiziert werden. Zudem kann gegebenenfalls der effektive Anwendungsbereich des neuronalen Netzes gemäß dessen tatsächlichen Fähigkeiten erweitert werden. So bedeutet beispielsweise allein die Tatsache, dass ein bestimmtes Inputbild formal außerhalb der Anwendungsdomäne des neuronalen Netzes liegt, nicht automatisch, dass das konkrete neuronale Netz bei dem Verarbeiten, also Klassifizieren dieses Inputbildes tatsächlich einen Fehler macht.In this way, the recognition of scenes that are difficult to correctly classify is advantageously not restricted, for example, to new scenes or input images or scenes or input images that differ drastically from the training data set. Rather, it is also possible to recognize scenes or images that are difficult to classify correctly, which should apparently lie within the application domain of the neural network, but are nevertheless at least partially incorrectly classified by it in practice, for example due to one or more of the other properties mentioned. In addition, if necessary, the effective range of application of the neural network can be expanded according to its actual capabilities. For example, the mere fact that a specific input image is formally outside the application domain of the neural network does not automatically mean that the specific neural network actually makes an error when processing, i.e. classifying, this input image.

Damit kann die vorliegende Erfindung insbesondere in sicherheitskritischen Umgebungen oder Anwendungen, wie beispielsweise für das autonome Fahren, eingesetzt werden. Die vorliegende Erfindung beruht auf der Erkenntnis, dass es - insbesondere in derartigen Anwendungen - letztlich entscheidend ist, ob das neuronale Netz die jeweilige Szene korrekt versteht bzw. klassifiziert, und zwar unabhängig davon, ob das jeweilige Inputbild formal innerhalb oder außerhalb der Anwendungsdomäne des neuronalen Netzes liegt. The present invention can thus be used in particular in safety-critical environments or applications, such as for example for autonomous driving. The present invention is based on the knowledge that it is ultimately decisive - particularly in such applications - whether the neural network correctly understands or classifies the respective scene, regardless of whether the respective input image is formally inside or outside the application domain of the neural network network lies.

Mit anderen Worten wird hier also die Beurteilung, ob das jeweilige Inputbild bzw. die jeweilige Szene innerhalb oder außerhalb der Anwendungsdomäne, also des Kompetenzbereiches des neuronalen Netzes liegt, diesem selbst überlassen bzw. nicht auf a priori definierte formale Kriterien, sondern auf ein tatsächliches reales Verarbeitungsergebnis gefußt.In other words, the assessment of whether the respective input image or scene is within or outside the application domain, i.e. the area of competence of the neural network, is left to the neural network itself or not based on formal criteria defined a priori, but on an actual real one Processing result based.

Ist das neuronale Netz beispielsweise zum Klassifizieren von Bildern trainiert, die Verkehrsszenen auf Autobahnen darstellen, so kann das neuronale Netz ein Inputbild, das eine Verkehrsszene auf einer autobahnähnlichen Straße zeigt, gegebenenfalls korrekt klassifizieren, obwohl dieses Bild formal außerhalb der Trainings- oder Anwendungsdomäne des neuronalen Netzes liegt. Ebenso kann das neuronale Netz bei dem Klassifizieren eines Bildes, das tatsächlich eine Verkehrsszene auf einer Autobahn zeigt, einen Fehler machen, also eine Fehlklassifikation vornehmen. In beiden Fällen kann das jeweilige Inputbild bzw. die jeweilige Szene mittels des erfindungsgemäßen Verfahrens korrekt als im ersten Fall einfach oder korrekt klassifizierbar und im zweiten Fall als schwierig klassifizierbar erkannt werden. Inputbilder, die zu einem korrekten bzw. bezüglich einer bestimmungsgemäßen Funktionsweise des neuronalen Netzes regulären Verarbeitungsergebnis führen, werden hier also nicht als OOD eingestuft, während Inputbilder, die zu einem inkorrekten bzw. ungewöhnlichen oder irregulären Verarbeitungsergebnis führen, als OOD eingestuft oder erkannt werden.For example, if the neural network is trained to classify images depicting traffic scenes on freeways, the neural network may correctly classify an input image depicting a traffic scene on a freeway-like road, even though this image is formally outside the training or application domain of the neural network network lies. Likewise, the neural network can make a mistake when classifying an image that actually shows a traffic scene on a freeway, that is to say it can make an incorrect classification. In both cases, the respective input image or the respective scene can be recognized correctly as easily or correctly classifiable in the first case and as difficult to classify in the second case using the method according to the invention. Input images that lead to a correct or regular processing result with regard to the intended functioning of the neural network are therefore not classified as OOD here, while input images that lead to an incorrect or unusual or irregular processing result are classified or recognized as OOD.

Das erfindungsgemäße Verfahren kann beispielsweise für neuronale Netze angewendet werden, die für die semantische Segmentierung von Bildern trainiert sind, ist jedoch nicht auf diesen Anwendungsfall beschränkt. Letztlich kann das erfindungsgemäße Verfahren für neuronale Netze angewendet werden, die für unterschiedlichste konkrete Aufgaben oder Ziele trainiert sind, solange diese Aufgaben oder Ziele bzw. die neuronalen Netze auf räumlichen Merkmalen visueller Daten, insbesondere also von Bildern, basieren bzw. räumliche Merkmale dieser visuellen Daten verwenden.The method according to the invention can be used, for example, for neural networks that are trained for the semantic segmentation of images, but is not applicable to these use case limited. Ultimately, the method according to the invention can be used for neural networks that are trained for a wide variety of specific tasks or goals, as long as these tasks or goals or the neural networks are based on spatial features of visual data, in particular images, or spatial features of this visual data use.

Durch das erfindungsgemäße Verfahren wird eine besonders robuste und zuverlässige Erkennung von tatsächlichen oder möglichen Fehlklassifikationen, also Fehlern des jeweiligen neuronalen Netzes ermöglicht. Dies erlaubt es wiederum auch nicht stets hundertprozentig korrekt entscheidende oder nur für eine begrenzte Anwendungsdomäne geeignete neuronale Netze in der Praxis, insbesondere auch in sicherheitsrelevanten Anwendungen, einzusetzen. Dies ist der Fall, da durch eine robustere und zuverlässigere Erkennung schwierig korrekt zu klassifizierender Szenen entsprechend zuverlässig angepasst reagiert werden kann, sodass eine Fehlentscheidung oder Fehlklassifikation des jeweiligen neuronalen Netzes nicht zu Problemen oder fehlerhaften nachfolgenden Entscheidungen oder Steuermaßnahmen führt. Beispielsweise kann bei der Erkennung einer schwer zu klassifizierenden Szene, also eines tatsächlich oder vermutlich zumindest teilweise falsch klassifizierten Inputbildes, die Übernahme der Steuerung einer ansonsten durch das neuronale Netz oder basierend auf den Verarbeitungsergebnissen des neuronalen Netzes autonom oder automatisch gesteuerten Funktion durch eine menschliche Bedienperson angefordert werden. Letztere kann bei einer Anwendung der vorliegenden Erfindung in einem Kraftfahrzeug beispielsweise ein Fahrzeuginsasse oder ein fahrzeugexterner Teleoperator sein.The method according to the invention enables a particularly robust and reliable detection of actual or possible incorrect classifications, ie errors in the respective neural network. This in turn also makes it possible to use neural networks that are not always 100% correct or only suitable for a limited application domain in practice, especially in safety-relevant applications. This is the case because a more robust and reliable detection of scenes that are difficult to classify correctly can be adapted accordingly, so that an incorrect decision or incorrect classification of the respective neural network does not lead to problems or incorrect subsequent decisions or control measures. For example, when recognizing a scene that is difficult to classify, i.e. an input image that is actually or presumably at least partially incorrectly classified, a human operator may be required to take over control of a function that is otherwise controlled autonomously or automatically by the neural network or based on the processing results of the neural network will. When the present invention is used in a motor vehicle, the latter can be, for example, a vehicle occupant or a vehicle-external teleoperator.

In einer möglichen Ausgestaltung der vorliegenden Erfindung wird aus dem jeweiligen Verarbeitungsergebnis als die rekonstruierten Bilddaten oder als Teil davon ein rekonstruiertes Bild, hier auch als Rekonstruktionsbild bezeichnet, erzeugt, also rekonstruiert. Dieses rekonstruierte Bild wird dabei derart erzeugt, dass es die gleichen Dimensionen hat wie das jeweilige Inputbild. Bei dem Vergleichen wird jeweils dieses rekonstruierte Bild mit dem Inputbild verglichen. Mit anderen Worten umfassen also die rekonstruierten Bilddaten jeweils ein aus dem Verarbeitungsergebnis anhand der Zuordnung als die oder als Teil der rekonstruierten Bilddaten erzeugtes Rekonstruktionsbild. Da dieses Rekonstruktionsbild und das Inputbild hier von der gleichen Datenart sind und die gleichen Dimensionen, also die gleiche Größe aufweisen, können Sie besonders einfach, konsistent, genau und zuverlässig miteinander verglichen werden.In one possible embodiment of the present invention, a reconstructed image, also referred to here as a reconstruction image, is generated from the respective processing result as the reconstructed image data or as part thereof, ie reconstructed. This reconstructed image is generated in such a way that it has the same dimensions as the respective input image. During the comparison, this reconstructed image is compared with the input image in each case. In other words, the reconstructed image data each include a reconstruction image generated from the processing result based on the association as or as part of the reconstructed image data. Since this reconstruction image and the input image here are of the same data type and have the same dimensions, ie the same size, they can be compared with one another in a particularly simple, consistent, accurate and reliable manner.

Dazu können für verschiedene vorgegebene Vergleichs- oder Analysemethoden angewendet werden. Beispielsweise kann der Vergleich pixel- oder bereichsweise durchgeführt werden, wobei jeweilige Bildwerte miteinander verglichen werden können. Ebenso können weitere vorgegebene Eigenschaften des Rekonstruktionsbildes und des Inputbildes bestimmt und miteinander verglichen werden, wie etwa ein Histogramm, eine Farbverteilung, ein Kontrastverhältnis, ein Vorhandensein oder ein Verhältnis von zueinander oder zu einem Bildrand parallelen, senkrechten und/oder schrägstehenden Linien, Konturen und/oder dergleichen mehr.For this purpose, various predetermined comparison or analysis methods can be used. For example, the comparison can be carried out on a pixel or area basis, with the respective image values being able to be compared with one another. Likewise, further predefined properties of the reconstruction image and the input image can be determined and compared with one another, such as a histogram, a color distribution, a contrast ratio, the presence or a relationship of lines, contours and/or lines that are parallel, perpendicular and/or inclined to one another or to an image edge. or something like that.

Ein ungewöhnliches, insbesondere fehlerhaftes Verarbeitungsergebnis wird typischerweise zu einer inkorrekten Bildrekonstruktion, also zu einem von dem jeweiligen Inputbild unterschiedlichen Rekonstruktionsbild führen. Dies kann dann in der hier beschriebenen Weise erkannt werden kann.An unusual, in particular incorrect, processing result will typically lead to an incorrect image reconstruction, ie to a reconstruction image that differs from the respective input image. This can then be recognized in the manner described here.

Das Erzeugen des Rekonstruktionsbildes und das Vergleichen des Rekonstruktionsbildes mit dem Inputbild kann durch unterschiedliche Einrichtungen oder Module der Erkennungseinrichtung durchgeführt werden. Dazu kann die Erkennungseinrichtung also beispielsweise ein entsprechendes Rekonstruktionsmodul, das zum Erzeugen der rekonstruierten Bilder aus den Verarbeitungsergebnissen eingerichtet ist, und ein Vergleichsmodul, das zum Vergleichen der rekonstruierten Bilder mit den Inputbildern zum Erkennen von Abweichungen eingerichtet ist, aufweisen.The generation of the reconstruction image and the comparison of the reconstruction image with the input image can be carried out by different devices or modules of the recognition device. For this purpose, the recognition device can have, for example, a corresponding reconstruction module that is set up to generate the reconstructed images from the processing results, and a comparison module that is set up to compare the reconstructed images with the input images to detect deviations.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung umfasst die Erkennungseinrichtung ein künstliches neuronales Rekonstruktionsnetz. Bei diesem Rekonstruktionsnetz handelt es sich um ein künstliches neuronales Netz, das auch als Rekonstruktionsmodell bezeichnet werden kann. Dieses Rekonstruktionsnetz hat anhand von bei korrekten Klassifizierungen durch das zum Verarbeiten der Inputbildern vorgesehene neuronale Netz angefallenen Verarbeitungsergebnissen und den zugehörigen Inputbildern die genannte Zuordnung zu den entsprechenden Bilddaten gelernt. Mittels dieses entsprechend trainierten Rekonstruktionsnetzes wird für das Vergleichen zumindest als die rekonstruierten Bilddaten oder als Teil davon ein rekonstruiertes Bild erzeugt, also rekonstruiert. Dieses rekonstruierte Bild kann insbesondere das auch an anderer Stelle genannte Rekonstruktionsbild sein. Das hier vorgesehene Rekonstruktionsnetz kann also dem an anderer Stelle genannten Rekonstruktionsmodul entsprechen oder ein Teil davon sein.In a further possible embodiment of the present invention, the recognition device comprises an artificial neural reconstruction network. This reconstruction network is an artificial neural network that can also be referred to as a reconstruction model. This reconstruction network has learned the named assignment to the corresponding image data on the basis of processing results obtained in the case of correct classifications by the neural network provided for processing the input images and the associated input images. By means of this appropriately trained reconstruction network, a reconstructed image is generated, ie reconstructed, at least as the reconstructed image data or as part thereof for the comparison. This reconstructed image can in particular be the reconstruction image also mentioned elsewhere. The reconstruction network provided here can therefore correspond to the reconstruction module mentioned elsewhere or be part of it.

Das Rekonstruktionsnetz kann im Rahmen seines Trainings erfolgreiche Vorhersagen, also korrekte Klassifizierungen des neuronalen Netzes aus dem Verarbeiten der Inputbilder bzw. entsprechender Trainings- oder Testdaten beobachten bzw. verarbeiten und dadurch die Zuordnung, also eine Abbildung zwischen erfolgreichen bzw. korrekten Verarbeitungsergebnissen oder Outputs des neuronalen Netzes und entsprechenden Inputs, die zu diesen Verarbeitungsergebnissen oder Outputs geführt haben, lernen. Das Rekonstruktionsmodell lernt mit anderen Worten also von oder aus den beim Verarbeiten vorgegebener Daten durch das neuronale Netz anfallenden Verarbeitungsergebnissen wie der jeweilige zugehörige Input, also das zugrundeliegende Inputbild für ein bestimmtes Verarbeitungsergebnis, aussehen sollte.As part of its training, the reconstruction network can make successful predictions, i.e. correct classifications of the neural network observe or process the processing of the input images or corresponding training or test data and thereby learn the assignment, i.e. a mapping between successful or correct processing results or outputs of the neural network and corresponding inputs that have led to these processing results or outputs. In other words, the reconstruction model learns from the processing results obtained when processing given data by the neural network what the respective associated input, ie the underlying input image for a specific processing result, should look like.

In der hier vorgeschlagenen Ausgestaltung der vorliegenden Erfindung ist die Zuordnung also nicht strikt vorgegeben oder definiert, sondern durch das Rekonstruktionsnetz gelernt bzw. durch dessen innere Struktur bzw. Parameter gegeben oder repräsentiert. Damit muss die entsprechende Zuordnung also nicht manuell definiert werden, was auf besonders einfache Weise eine zuverlässige und verallgemeinerte Zuordnung erlaubt oder ermöglicht und entsprechenden manuellen Definitionsaufwand einsparen kann.In the embodiment of the present invention proposed here, the assignment is therefore not strictly predetermined or defined, but learned by the reconstruction network or given or represented by its internal structure or parameters. The corresponding assignment therefore does not have to be defined manually, which allows or enables a reliable and generalized assignment in a particularly simple manner and can save corresponding manual definition effort.

In einer möglichen Weiterbildung ist bzw. wird das Rekonstruktionsnetz in einem GAN-System trainiert. Mit anderen Worten wird also ein als „generative adversariale Netzwerke“ bezeichnetes System aus zwei künstlichen neuronalen Netzen verwendet, um das Rekonstruktionsnetz zu trainieren bzw. zu erzeugen. Dieses Trainieren oder Erzeugen des Rekonstruktionsnetzes kann Teil des erfindungsgemäßen Verfahrens oder Teil eines Verfahrens zum Herstellen der Erkennungseinrichtung bzw. einer diese umfassenden Assistenzeinrichtung sein. Ein solches Herstellungsverfahren kann seinerseits ein eigener Aspekt der vorliegenden Erfindung sein. Durch das Trainieren oder Erzeugen des Rekonstruktionsnetzes mittels eines GAN-Systems kann das Rekonstruktionsnetz besonders effektiv trainiert werden und somit in der Anwendung des erfindungsgemäßen Verfahrens besonders effektiv die genannten Rekonstruktionsbilder erzeugen. Diese Rekonstruktionsbilder können dadurch beispielsweise besonders realistisch sein, also besonders genau realen, etwa mittels einer Kamera aufgenommenen, Inputbildern entsprechen. Dadurch kann die Erkennung schwer zu klassifizierender Szenen basierend auf dem Vergleich der Rekonstruktionsbilder mit den zugehörigen Inputbildern besonders robust und zuverlässig sein, da das in der hier vorgeschlagenen Weise trainierte oder erzeugte Rekonstruktionsnetz beispielsweise im Vergleich zu anderen Modellen oder Methoden besonders wenige unrealistische Artefakte in den Rekonstruktionsbildern erzeugen kann.In a possible development, the reconstruction network is or will be trained in a GAN system. In other words, a system of two artificial neural networks, referred to as “generative adversarial networks”, is used to train or generate the reconstruction network. This training or generation of the reconstruction network can be part of the method according to the invention or part of a method for producing the recognition device or an assistance device comprising it. Such a manufacturing process may itself be an aspect of the present invention in its own right. By training or generating the reconstruction network using a GAN system, the reconstruction network can be trained particularly effectively and thus generate the reconstruction images mentioned particularly effectively when the method according to the invention is used. As a result, these reconstruction images can, for example, be particularly realistic, that is to say correspond particularly precisely to real input images, for example those recorded by means of a camera. As a result, the detection of scenes that are difficult to classify based on the comparison of the reconstruction images with the associated input images can be particularly robust and reliable, since the reconstruction network trained or generated in the manner proposed here has particularly few unrealistic artifacts in the reconstruction images compared to other models or methods can generate.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird, falls das neuronale Netz zur semantischen Segmentierung trainiert ist, ein Endergebnis des neuronalen Netzes als das jeweilige Verarbeitungsergebnis verwendet. Andernfalls wird eine nach einem eingangsseitigen Merkmalsextraktionsteil des neuronalen Netzes und vor einem ausgangsseitigen semantischen Klassifizierungsteil des neuronalen Netzes vorliegende räumliche Merkmalskarte, also eine Merkmalskarte räumlicher Merkmale des jeweiligen Inputbildes, als das jeweilige Verarbeitungsergebnis verwendet.In a further possible embodiment of the present invention, if the neural network is trained for semantic segmentation, an end result of the neural network is used as the respective processing result. Otherwise, a spatial feature map present after an input-side feature extraction part of the neural network and before an output-side semantic classification part of the neural network, ie a feature map of spatial features of the respective input image, is used as the respective processing result.

Das Endergebnis ist hier also ein an einem Ausgang, beispielsweise einer ausgangsseitigen Klassifikationsschicht, des neuronalen Netzes vorliegendes oder abgreifbares Ergebnis, hier nämlich die semantische Segmentierung des jeweiligen Inputbildes selbst. Diese kann gegebenenfalls direkt als das jeweilige Verarbeitungsergebnis oder als Teil davon verwendet werden.The end result here is a result that is available or can be tapped at an output, for example an output-side classification layer, of the neural network, namely the semantic segmentation of the respective input image itself. This can optionally be used directly as the respective processing result or as part of it.

Für andere Anwendungen, falls das neuronale Netz also beispielsweise für die Objektdetektion oder dergleichen trainiert ist, kann hingegen die räumliche Merkmalskarte (englisch: spatial feature map) aus einem mittleren, also entlang eines Datenflusses bei der Verarbeitung von Inputbildern durch das neuronale Netz zwischen dessen Eingang und dessen Ausgang liegenden, Bereich ausgeleitet und als das jeweilige Verarbeitungsergebnis oder als Teil davon verwendet werden. Beispielsweise kann es sich dabei um eine Ausgabe einer entlang des Datenflusses, also einer Datenverarbeitungsrichtung innerhalb des neuronalen Netzes, letzten, also ausgangsseitigen faltenden Schicht vor einer nachfolgenden vollständig verbundenen Klassifizierungsschicht handeln. Diese räumliche Merkmalskarte kann also insbesondere nach einem Bereich oder Abschnitt, also nach denjenigen Schichten des neuronalen Netzes vorliegen, der bzw. die komplett oder nahezu vollständig auf räumlichen Merkmalen basieren bzw. räumliche Merkmale des jeweiligen Inputbildes verarbeiten bzw. extrahieren. Die räumliche Merkmalskarte kann also abstrakte oder hochlevelige, das heißt auf einem relativ abstrakten oder hohen Betrachtungsniveau vorliegende, räumliche Merkmale (englisch: high-level spatial features) angeben oder definieren.For other applications, for example if the neural network is trained for object detection or the like, the spatial feature map can consist of a central data flow, i.e. along a data flow when processing input images through the neural network between its input and its output can be extracted and used as the respective processing result or as a part thereof. For example, this can be an output of a last layer that is convoluting along the data flow, ie, a data processing direction within the neural network, ie, on the output side, before a subsequent, fully connected classification layer. This spatial feature map can therefore be present in particular after a region or section, ie after those layers of the neural network which are completely or almost completely based on spatial features or process or extract spatial features of the respective input image. The spatial feature map can therefore indicate or define abstract or high-level spatial features, ie spatial features present at a relatively abstract or high level of consideration.

Je nach Anwendungsfall oder Implementierung können dabei auch jeweilige Begrenzungsrahmen (englisch: bounding boxes), die jeweils ein entsprechendes räumliches Merkmal oder ein erkanntes Objekt in dem jeweiligen Inputbild umgeben oder markieren können, als Teil des Verarbeitungsergebnisses verwendet werden.Depending on the application or implementation, respective bounding boxes, which can each surround or mark a corresponding spatial feature or a recognized object in the respective input image, can also be used as part of the processing result.

Auf Basis der hier zur Verwendung zum Bestimmen oder Erzeugen der rekonstruierten Bilddaten vorgesehenen Verarbeitungsergebnisse können diese besonders effektiv und robust bestimmt oder erzeugt werden und somit letztlich die Erkennung der schwierig korrekt zu klassifizierenden Szenen besonders effektiv und robust durchgeführt werden. Based on the here for use in determining or generating the reconstructed image Processing results provided for the data can be determined or generated in a particularly effective and robust manner, and the scenes that are difficult to correctly classify can thus ultimately be recognized in a particularly effective and robust manner.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird durch die Zuordnung mehreren unterschiedlichen semantischen Klassen, für die das neuronale Netz trainiert ist, jeweils ein durchschnittlicher Farbwert zugeordnet. Dieser durchschnittliche Farbwert bildet dann die entsprechenden Bilddaten oder ist zumindest ein Teil der entsprechenden Bilddaten. Bei dem Vergleichen kann dann anhand der durch das Verarbeitungsergebnis gegebenen, von dem neuronalen Netz vorgenommenen Klassifikation unter Verwendung der Zuordnung der zugehörige durchschnittliche Farbwert bestimmt werden. Dieser bestimmte durchschnittliche Farbwert kann dann mit dem korrespondierenden tatsächlichen Farbwert in dem jeweiligen Inputbild verglichen werden, beispielsweise pixel- oder bereichsweise.In a further possible embodiment of the present invention, an average color value is assigned in each case by the assignment of a plurality of different semantic classes for which the neural network is trained. This average color value then forms the corresponding image data or is at least part of the corresponding image data. During the comparison, the associated average color value can then be determined on the basis of the classification given by the processing result and carried out by the neural network using the assignment. This determined average color value can then be compared with the corresponding actual color value in the respective input image, for example on a pixel or area basis.

Beispielsweise kann der durchschnittliche Farbwert der Klasse „Himmel“, also derjenigen Pixel oder Bildbereiche, denen durch das neuronale Netz die Klassifikation als Himmel zugeordnet wurde, ein Blauton sein. Analog kann der semantischen Klasse „Straße“ als durchschnittlicher Farbwert ein Grauton zugeordnet sein. Beispielsweise kann ein bestimmtes Inputbild eine Verkehrsszene darstellen, in der an einer Horizontlinie ein Stück Himmel und ein Stück Straße aneinanderstoßen, wobei sich auf der Straße ein Verkehrsteilnehmer befindet, beispielsweise ein farbig oder bunt gekleideter Fußgänger oder ein, insbesondere weder grau noch blau lackiertes, Kraftfahrzeug. Dieser Verkehrsteilnehmer kann dann einen Teil der Straße und/oder einen Teil des Himmels verdecken. Hat in einem Fehlerfall das neuronale Netzwerk den tatsächlich von dem Verkehrsteilnehmer eingenommenen Bildbereich beispielsweise als Straße oder als Himmel klassifiziert, also den Verkehrsteilnehmer effektiv übersehen, so ergibt sich anhand der Zuordnung für die tatsächlich von dem Verkehrsteilnehmer eingenommenen Bildbereiche ein entsprechender durchschnittlicher Farbwert von grau oder blau. Der Vergleich mit den Farbwerten des entsprechenden von dem Verkehrsteilnehmer in dem Inputbild eingenommenen Bildbereiches ergibt dann eine signifikante Abweichung und deckt somit die Fehlklassifizierung durch das neuronale Netz auf.For example, the average color value of the "sky" class, ie those pixels or image areas that have been assigned the classification as sky by the neural network, can be a shade of blue. Analogously, a shade of gray can be assigned to the semantic class “road” as an average color value. For example, a specific input image can represent a traffic scene in which a piece of sky and a piece of road meet at a horizon line, with a road user on the road, for example a pedestrian dressed in colored or brightly colored clothing or a motor vehicle, in particular painted neither gray nor blue . This road user can then obscure part of the road and/or part of the sky. If, in the event of an error, the neural network has classified the image area actually occupied by the road user as a road or sky, for example, i.e. effectively overlooked the road user, the allocation for the image areas actually occupied by the road user results in a corresponding average color value of gray or blue . The comparison with the color values of the corresponding image area occupied by the road user in the input image then results in a significant deviation and thus reveals the incorrect classification by the neural network.

Die hier beschriebene Methodik kann eine besonders einfache, alternative Methodik darstellen, die beispielsweise kein separates neuronales Netz für die an anderer Stelle genannte Bildrekonstruktion benötigt. Die hier vorgeschlagene farbwertbasierte Erkennung von Fehlern bzw. schwierig korrekt zu klassifizierenden Szenen oder Inputbildern kann ebenso mit den anderen beschriebenen Methoden oder Ausgestaltungen der vorliegenden Erfindung kombiniert werden. Beispielsweise können mehrere Methoden angewendet werden, um eine größere Verlässlichkeit, eine Plausibilisierung oder dergleichen zu erhalten.The methodology described here can represent a particularly simple, alternative methodology which, for example, does not require a separate neural network for the image reconstruction mentioned elsewhere. The color value-based detection of errors or scenes or input images that are difficult to correctly classify as proposed here can also be combined with the other described methods or configurations of the present invention. For example, a number of methods can be used in order to obtain greater reliability, a plausibility check or the like.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird die jeweilige Szene bzw. das jeweilige Inputbild dann, insbesondere nur dann, als schwierig korrekt zu klassifizieren erkannt, wenn die Abweichung zwischen den rekonstruierten Bilddaten und dem Inputbild wenigstens einen vorgegebenen Schwellenwert erreicht bzw. ein vorgegebenes Kriterium erfüllt. Mit anderen Worten ist für den Vergleich bzw. die Erkennung also ein solcher Schwellenwert oder ein solches Kriterium vorgegeben. Dies kann beispielsweise sein oder umfassen, dass wenigstens eine vorgegebene Anzahl oder ein vorgegebener Anteil von Pixeln abweicht und/oder die Abweichung wenigstens eine vorgegebene Größe oder einen vorgegebenen Betrag aufweist. Mit anderen Worten kann also beispielsweise vorgegeben sein, dass eine Abweichung von Bild- oder Pixelwerten, wie etwa eines Farb-, Intensitäts-, Helligkeits- und/oder RAW-Werts, entsprechend signifikant ist.In a further possible embodiment of the present invention, the respective scene or the respective input image is recognized as being difficult to classify correctly, in particular only if the deviation between the reconstructed image data and the input image reaches at least a predetermined threshold value or a predetermined criterion Fulfills. In other words, such a threshold value or such a criterion is predefined for the comparison or the recognition. This can be or include, for example, that at least a specified number or a specified proportion of pixels deviate and/or the deviation has at least a specified size or a specified amount. In other words, it can be specified, for example, that a deviation from image or pixel values, such as a color, intensity, brightness and/or RAW value, is correspondingly significant.

Durch den hier vorgeschlagenen Schwellenwert bzw. das entsprechende Kriterium kann effektiv ein Grad oder eine Schwere der Fehlklassifikation berücksichtigt werden. Dadurch kann ein robusteres und praktikableres Verhalten eines Systems oder einer Einrichtung, die das neuronale Netz umfasst oder verwendet, erreicht werden. Beispielsweise kann es für eine jeweilige unter Verwendung des neuronalen Netzes zumindest teilweise automatisierte oder autonom auszuführende Aufgabe effektiv irrelevant sein, wenn ein einzelner Pixel falsch klassifiziert wird, insbesondere wenn dadurch kein in einem größeren Bereich dargestelltes Objekt vollständig übersehen oder fehlklassifiziert wird. Somit können also beispielsweise letztlich unnötige bei Erkennung einer schwierig korrekt zu klassifizierenden Szene vorgesehene Maßnahmen, wie beispielsweise die Ausgabe eines Warnsignals oder einer Anforderung für eine Kontroll- oder Steuerungsübernahme durch eine menschliche Bedienperson, vermieden werden. Dies kann den Einsatz entsprechender Systeme oder Verfahren praktikabler machen.The threshold value proposed here or the corresponding criterion can effectively take into account a degree or a severity of the incorrect classification. Thereby a more robust and practical behavior of a system or a device comprising or using the neural network can be achieved. For example, it can be effectively irrelevant for a respective task that is at least partially automated or to be executed autonomously using the neural network if a single pixel is misclassified, in particular if this does not completely overlook or misclassify an object represented in a larger area. Thus, for example, ultimately unnecessary measures provided when a scene that is difficult to correctly classify is detected, such as the output of a warning signal or a request for a human operator to assume control or control, can thus be avoided. This can make the use of appropriate systems or procedures more practical.

In einer weiteren möglichen Ausgestaltung der vorliegenden Erfindung wird die jeweilige Szene bzw. des jeweilige Inputbild dann, insbesondere nur dann, als schwierig korrekt zu klassifizieren erkannt, wenn die Abweichung zwischen den rekonstruierten Bilddaten und dem Inputbild für einen zusammenhängenden, mehrere Pixel umfassenden Bereich von wenigstens einer vorgegebenen Größe erkannt wird bzw. gegeben ist. Mit anderen Worten führt also eine Abweichung oder Fehlklassifikation eines einzelnen isolierten Pixels nicht dazu, dass die Szene oder das Inputbild insgesamt als schwierig korrekt zu klassifizieren erkannt wird. Vielmehr dient die für eine derartige Erkennung gemäß der hier vorgeschlagenen Ausgestaltung der vorliegenden Erfindung notwendige minimale Größe des Bereiches, also eines von dem neuronalen Netz falsch klassifizierten Fehlerbereiches, als Schwellenwert oder Filter. Damit kann eine Erkennung einer Szene oder eines Inputbildes als schwierig korrekt zu klassifizieren sowie eine Auslösung entsprechender für diesen Fall vorgesehener Maßnahmen auf entsprechend schwerwiegende bzw. in der Praxis voraussichtlich hinsichtlich der korrekten Ausführung einer das neuronale Netz involvierenden Funktion relevante Fälle beschränkt werden. So kann beispielsweise eine Fehlklassifikation eines einzelnen isolierten Pixels effektiv ignoriert werden. Dies ist in der Praxis sinnvoll, da einzelne Pixel typischerweise ohnehin nicht genug Informationen liefern können, um ein ausgedehntes Objekt zuverlässig identifizieren zu können. Damit kann die Anwendung entsprechender automatisierter oder teilautomatisierter Systeme und Einrichtungen praktikabler gemacht werden.In a further possible embodiment of the present invention, the respective scene or the respective input image is recognized as being difficult to classify correctly, in particular only if the deviation between the reconstructed image data and the input image is for a coherent area comprising several pixels is recognized or given by at least one predetermined size. In other words, a deviation or misclassification of a single isolated pixel does not result in the scene or the input image being recognized as difficult to classify correctly overall. Rather, the minimum size of the area required for such a detection according to the embodiment of the present invention proposed here, ie an error area incorrectly classified by the neural network, serves as a threshold value or filter. In this way, recognition of a scene or an input image can be classified as difficult to correctly classify and triggering of corresponding measures provided for this case can be restricted to correspondingly serious cases or cases likely to be relevant in practice with regard to the correct execution of a function involving the neural network. For example, a misclassification of a single isolated pixel can be effectively ignored. This makes sense in practice, since individual pixels typically cannot provide enough information anyway to be able to reliably identify an extended object. The use of corresponding automated or semi-automated systems and devices can thus be made more practicable.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine Assistenzeinrichtung, insbesondere für ein Kraftfahrzeug. Die erfindungsgemäße Assistenzeinrichtung weist eine Erkennungseinrichtung auf, in der eine Zuordnung von Verarbeitungsergebnissen eines zur Bildverarbeitung trainierten künstlichen neuronalen Netzes zu Bilddaten hinterlegt ist. Dabei handelt es sich um Bilddaten, die in der Vergangenheit bei einer entsprechenden Daten- oder Bildverarbeitung durch das neuronale Netz oder ein entsprechendes neuronales Netz korrekterweise in den jeweiligen Verarbeitungsergebnissen resultiert haben. Die erfindungsgemäße Assistenzeinrichtung ist dabei zum, insbesondere automatischen oder teilautomatischen, Durchführen zumindest einer Variante oder Ausführungsform des erfindungsgemäßen Verfahrens eingerichtet. Die erfindungsgemäße Assistenzeinrichtung kann also insbesondere die im Zusammenhang mit dem erfindungsgemäßen Verfahren genannte Assistenzeinrichtung bzw. das dort genannte System sein oder umfassen oder ein Teil davon sein. Dementsprechend kann auch die als Teil der erfindungsgemäßen Assistenzeinrichtung vorgesehene Erkennungseinrichtung die im Zusammenhang mit dem erfindungsgemäßen Verfahren genannte Erkennungseinrichtung sein bzw. dieser entsprechen.A further aspect of the present invention is an assistance device, in particular for a motor vehicle. The assistance device according to the invention has a recognition device in which an assignment of processing results of an artificial neural network trained for image processing to image data is stored. This is image data that has correctly resulted in the respective processing results in the past in a corresponding data or image processing by the neural network or a corresponding neural network. The assistance device according to the invention is set up to carry out at least one variant or embodiment of the method according to the invention, in particular automatically or semi-automatically. The assistance device according to the invention can therefore in particular be or include the assistance device mentioned in connection with the method according to the invention or the system mentioned there or be a part thereof. Accordingly, the detection device provided as part of the assistance device according to the invention can also be or correspond to the detection device mentioned in connection with the method according to the invention.

Die erfindungsgemäße Assistenzeinrichtung kann auch das im Zusammenhang mit dem erfindungsgemäßen Verfahren genannte neuronale Netz umfassen. Ebenso kann die erfindungsgemäße Assistenzeinrichtung beispielsweise eine Eingangsschnittstelle zum Erfassen der Verarbeitungsergebnisse des neuronalen Netzes, eine Ausgangsschnittstelle zum Ausgeben eines entsprechenden Erkennungsergebnisses oder -signals sowie Datenverarbeitungsmittel umfassen. So kann die Assistenzeinrichtung beispielsweise einen computerlesbaren Datenspeicher und eine damit verbundene Prozessoreinrichtung, beispielsweise einen Mikrochip, Mikroprozessor oder Mikrocontroller oder dergleichen, aufweisen. In dem Datenspeicher kann dann ein das erfindungsgemäße Verfahren repräsentierendes, also kodierendes oder implementierendes Computerprogramm gespeichert sein, das mittels der Prozessoreinrichtung ausführbar ist, um die Durchführung oder Ausführung des entsprechenden Verfahrens zu bewirken. So kann beispielsweise die Erkennungseinrichtung als entsprechendes Programmodul dieses Computerprogramms implementiert sein. Ebenso kann in dem Datenspeicher beispielsweise das neuronale Netz gespeichert sein. Das erfindungsgemäße Assistenzsystem kann auch zum Erzeugen bzw. Ausgeben eines entsprechenden Steuer- oder Hinweissignals im Falle einer Erkennung einer schwierig korrekt zu klassifizierenden Szene bzw. eines entsprechenden Inputbildes eingerichtet sein.The assistance device according to the invention can also include the neural network mentioned in connection with the method according to the invention. Likewise, the assistance device according to the invention can include, for example, an input interface for detecting the processing results of the neural network, an output interface for outputting a corresponding recognition result or signal, and data processing means. For example, the assistance device can have a computer-readable data memory and a processor device connected thereto, for example a microchip, microprocessor or microcontroller or the like. A computer program representing, ie coding or implementing, the method according to the invention can then be stored in the data memory, which computer program can be executed by means of the processor device in order to carry out or execute the corresponding method. For example, the recognition device can be implemented as a corresponding program module of this computer program. The neural network, for example, can also be stored in the data memory. The assistance system according to the invention can also be set up to generate or output a corresponding control or notification signal in the event that a scene that is difficult to classify correctly or a corresponding input image is detected.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Kraftfahrzeug, das eine erfindungsgemäße Assistenzeinrichtung aufweist. Diese Assistenzeinrichtung bzw. das Kraftfahrzeug kann insbesondere dazu eingerichtet sein, bei einem Erkennen einer schwierig korrekt zu klassifizierenden Szene bzw. eines entsprechenden Inputbildes in einem autonomen oder teilautonomen Betrieb des Kraftfahrzeugs automatisch ein Steuersignalen zum Anfordern einer Übernahme einer Fahrzeugsteuerung durch eine Bedienperson auszugeben. Bei dieser Bedienperson kann es sich beispielsweise um einen Fahrzeuginsassen des Kraftfahrzeugs oder einen fahrzeugextern lokalisierten Teleoperator handeln. Das erfindungsgemäße Kraftfahrzeug kann insbesondere das im Zusammenhang mit der erfindungsgemäßen Assistenzeinrichtung und/oder im Zusammenhang mit dem erfindungsgemäßen Verfahren genannte Kraftfahrzeug sein.A further aspect of the present invention is a motor vehicle which has an assistance device according to the invention. This assistance device or the motor vehicle can in particular be set up to automatically output a control signal to request that an operator take over control of the vehicle when a scene that is difficult to classify correctly or a corresponding input image is detected in autonomous or semi-autonomous operation of the motor vehicle. This operator can be, for example, a vehicle occupant of the motor vehicle or a teleoperator located outside the vehicle. The motor vehicle according to the invention can in particular be the motor vehicle mentioned in connection with the assistance device according to the invention and/or in connection with the method according to the invention.

Weitere Merkmale der Erfindung können sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung ergeben. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung und/oder in den Figuren allein gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.Further features of the invention can result from the claims, the figures and the description of the figures. The features and feature combinations mentioned above in the description and the features and feature combinations shown below in the description of the figures and/or in the figures alone can be used not only in the combination specified in each case, but also in other combinations or on their own, without going beyond the scope of the invention to leave.

Die Zeichnung zeigt in:

1 ein Ablaufschema zum Illustrieren eines Trainingsverfahrens für eine Erkennungseinrichtung (12, 30) zum Erkennen schwierig korrekt zu klassifizierender Szenen;
2 ein Ablaufschema zum Illustrieren einer Anwendung der Erkennungseinrichtung; und
3 eine schematische Darstellung eines Kraftfahrzeugs mit einer solchen Erkennungseinrichtung.

The drawing shows in:

1 a flowchart for illustrating a training method for a recognition device (12, 30) for recognizing scenes that are difficult to classify correctly;
2 a flow chart for illustrating an application of the recognition device; and
3 a schematic representation of a motor vehicle with such a detection device.

In den Figuren sind gleiche und funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.In the figures, identical and functionally identical elements are provided with the same reference symbols.

In vielen Anwendungsbereichen, in denen künstliche neuronale Netzwerke zum Einsatz kommen, ist es von besonderem Interesse, Fälle, also zu verarbeitende Eingangsdaten zu erkennen, die für das jeweilige neuronale Netzwerk neu oder aus anderen Gründen zu anspruchsvoll sind, von dem jeweiligen neuronalen Netzwerk also nicht korrekt klassifiziert werden können. Im Folgenden wird als Beispiel für einen solchen Anwendungsfall das autonome Fahren verwendet, die beschriebenen Abläufe und Einrichtungen sind jedoch ebenso für andere Anwendungen verwendbar bzw. auf andere Anwendungsfälle übertragbar.In many areas of application in which artificial neural networks are used, it is of particular interest to recognize cases, i.e. input data to be processed, which are new for the respective neural network or too demanding for other reasons, i.e. not from the respective neural network can be classified correctly. In the following, autonomous driving is used as an example for such an application, but the processes and devices described can also be used for other applications or can be transferred to other applications.

1 zeigt dazu beispielhaft ein Trainingsschema 10 zum Illustrieren eines Trainingsverfahrens für eine Erkennungseinrichtung zum Erkennen schwierig korrekt zu klassifizierender Szenen. Konkret wird hier ein Rekonstruktionsmodell 12 dazu trainiert, aus Verarbeitungsergebnissen eines zur Bildverarbeitung trainierten neuronalen Netzes 14 ein den jeweiligen Verarbeitungsergebnissen zugrundeliegendes Bild 16 zu rekonstruieren. Das neuronale Netz 14 umfasst hier beispielhaft mehrere faltende Schichten 18 und wenigstens eine diesen nachgeordnete ausgangsseitige Klassifizierungsschicht 22. Bei dem Verarbeiten des jeweiligen Bildes 16 durch die faltenden Schichten 18 ergibt sich nach diesen aber noch vor der wenigstens einen Klassifizierungsschicht 22 als Verarbeitungsergebnis eine räumliche Merkmalskarte 20. 1 1 shows an example of a training scheme 10 to illustrate a training method for a recognition device for recognizing scenes that are difficult to correctly classify. Specifically, a reconstruction model 12 is trained here to reconstruct an image 16 on which the respective processing results are based from processing results of a neural network 14 trained for image processing. The neural network 14 here comprises, for example, a plurality of convolutional layers 18 and at least one downstream classification layer 22 on the output side. When the respective image 16 is processed by the convolutional layers 18, a spatial feature map 20 results as the processing result after these but before the at least one classification layer 22 .

Diese räumlichen Merkmalskarten 20, die beim Verarbeiten unterschiedlicher Bilder 16 anfallen, können als Trainingsdaten dem Rekonstruktionsmodell 12 zugeführt werden. Für das Training des Rekonstruktionsmodells 12 können diese Trainingsdaten dabei annotiert sein, beispielsweise mit korrekten Labels, also Klassifikationen, Objekte lokalisieren Begrenzungsrahmen und/oder dergleichen mehr.These spatial feature maps 20, which arise when processing different images 16, can be supplied to the reconstruction model 12 as training data. For the training of the reconstruction model 12, this training data can be annotated, for example with correct labels, ie classifications, localize objects, bounding frames and/or the like.

Bei der weiteren Datenverarbeitung innerhalb des neuronalen Netzes 14 ergibt sich als dessen letztendlicher Output eine jeweilige Klassifikation 24, also eine Prädiktion für das jeweilige Bild 16. Je nach Ausgestaltung oder Implementierung des neuronalen Netzes 14 kann diese Klassifikation 24 zusätzlich oder alternativ zu der räumlichen Merkmalskarte 20 dem Rekonstruktionsmodell 12 als Trainingsdaten oder als Teil der Trainingsdaten zugeführt werden. Die Klassifikation 24 kann beispielsweise zum Trainieren des Rekonstruktionsmodells 12 verwendet werden, wenn das neuronale Netz 14 zum semantischen Segmentieren von Bildern 16 trainiert ist, es sich bei der Klassifikation 24 also um eine semantische Segmentierung des jeweiligen Bildes 16 handelt. Das Rekonstruktionsmodell 12 wird hier also anhand tatsächlicher Verarbeitungsergebnisse des jeweiligen konkreten neuronalen Netzes 14 trainiert.During further data processing within the neural network 14, the final output is a respective classification 24, i.e. a prediction for the respective image 16. Depending on the design or implementation of the neural network 14, this classification 24 can be used in addition to or as an alternative to the spatial feature map 20 are supplied to the reconstruction model 12 as training data or as part of the training data. The classification 24 can be used, for example, to train the reconstruction model 12 when the neural network 14 is trained for the semantic segmentation of images 16, ie the classification 24 is a semantic segmentation of the respective image 16. The reconstruction model 12 is therefore trained here using actual processing results of the respective concrete neural network 14 .

Nachdem das Rekonstruktionsmodell 12 trainiert ist, kann es als Teil einer Erkennungseinrichtung zum Erkennen von für das neuronale Netze 14 schwierig korrekt zu klassifizierenden Bildern 16 bzw. entsprechenden in diesen Bildern 16 dargestellten Szenen verwendet werden. Für das neuronale Netz 14 schwierig korrekt zu klassifizierende Bilder oder Szenen können sich dadurch auszeichnen, dass das neuronale Netz 14 beispielsweise zumindest einige räumliche Merkmale des jeweiligen Bildes 16 bzw. der darin abgebildeten oder dargestellten Szene nicht oder fälschlich beachtet, versteht oder klassifiziert. Für das neuronale Netz 14 schwierig korrekt zu klassifizierende Bilder 16 können also zu zumindest teilweise oder bereichsweise inkorrekten Klassifikationen 24 durch das neuronale Netz 14 führen bzw. geführt haben.After the reconstruction model 12 has been trained, it can be used as part of a recognition device for recognizing images 16 which are difficult for the neural network 14 to classify correctly, or corresponding scenes represented in these images 16 . Images or scenes that are difficult to classify correctly for the neural network 14 can be characterized in that the neural network 14 does not, for example, incorrectly observes, understands or classifies at least some spatial features of the respective image 16 or the scene depicted or represented therein. Images 16 which are difficult to classify correctly for the neural network 14 can therefore lead or have led to classifications 24 by the neural network 14 which are at least partially or partially incorrect.

2 zeigt beispielhaft ein Anwendungsschema 26 zum Illustrieren einer Anwendung einer entsprechenden Erkennungseinrichtung. Zur Anwendungs- oder Inferenzzeit Verfahrenszeit wird hier ebenfalls ein zu verarbeitendes Bild 16 bereitgestellt. Dieses Bild 16 wird dem neuronalen Netz 14 als Input bereitgestellt. Bei dem Verarbeiten des Bildes 16 erzeugt das neuronale Netz 14 dann wie beschrieben zumindest ein Verarbeitungsergebnis. Dieses Verarbeitungsergebnis wird dem Rekonstruktionsmodell 12 zugeführt, das darauf basierend rekonstruierte Bilddaten 28 bestimmt oder erzeugt. 2 shows an example of an application scheme 26 to illustrate an application of a corresponding recognition device. At the application or inference time, an image 16 to be processed is also provided here. This image 16 is provided to the neural network 14 as input. When processing the image 16, the neural network 14 then generates at least one processing result as described. This processing result is supplied to the reconstruction model 12, which determines or generates reconstructed image data 28 based thereon.

Diese rekonstruierten Bilddaten 28 basierend auf einem tatsächlichen der neuronalen Netzes 14 von dem jeweiligen Bild 16 oder repräsentieren ein solches tatsächliches Verständnis, also eine Interpretation des jeweiligen Bildes 16 durch das neuronale Netz 14.These reconstructed image data 28 based on an actual of the neural network 14 of the respective image 16 or represent such an actual understanding, i.e. an interpretation of the respective image 16 by the neural network 14.

Die rekonstruierten Bilddaten 28 und das jeweilige Bild 16 werden einem Vergleichsmodul 30 zugeführt. Dieses Vergleichsmodul 30 kann gemeinsam mit dem Rekonstruktionsmodell 12 die genannte Erkennungseinrichtung bilden oder Teil dieser Erkennungseinrichtung sein. Das Vergleichsmodul 30 vergleicht die rekonstruierten Bilddaten 28 und das jeweilige Bild 16 miteinander und gibt eine entsprechende Bewertung 32 aus. Dabei kann es sich beispielsweise um eine Angabe oder einen Wert handeln, der eine Abweichung oder eine Gleichheit zwischen den rekonstruierten Bilddaten 28 und dem diesen zugrunde liegenden Bild 16 angibt oder beschreibt.The reconstructed image data 28 and the respective image 16 are fed to a comparison module 30 . This comparison module 30 can be used together with the reconstruction model 12 form said recognition device or be part of this recognition device. The comparison module 30 compares the reconstructed image data 28 and the respective image 16 with one another and outputs a corresponding evaluation 32 . This can be, for example, an indication or a value that specifies or describes a deviation or equality between the reconstructed image data 28 and the image 16 on which it is based.

In diesem Verfahren wird also auf Grundlage des tatsächlichen Outputs oder Verarbeitungsergebnisses des neuronalen Netzes 14 bewertet oder bestimmt, ob der jeweilige Input, hier also das jeweilige Bild 16, neu oder anspruchsvoll, also für das neuronale Netz 14 schwierig korrekt zu klassifizieren ist bzw. war, also außerhalb einer Anwendungsdomäne oder einer Datenverteilung, für die das neuronale Netz 14 kompetent ist, liegt oder nicht. Im Gegensatz zu herkömmlichen Ansätzen basiert also die entsprechende Erkennung, also die entsprechende Bewertung 32 nicht nur auf vor dem tatsächlichen Verarbeiten des Bildes 16 durch das neuronale Netz 14 vorliegenden oder verfügbaren Daten, wie etwa dem Bild 16 selbst oder einem zum Trainieren des neuronalen Netzes 14 verwendeten Trainingsdatensatz.In this method, based on the actual output or processing result of the neural network 14, it is evaluated or determined whether the respective input, i.e. here the respective image 16, is new or challenging, i.e. difficult for the neural network 14 to classify correctly , ie outside of an application domain or a data distribution for which the neural network 14 is competent, or not. In contrast to conventional approaches, the corresponding recognition, i.e. the corresponding evaluation 32, is not only based on data that is present or available before the image 16 is actually processed by the neural network 14, such as the image 16 itself or data for training the neural network 14 used training data set.

In Versuchen hat sich gezeigt, dass im Vergleich zu herkömmlichen Ansätzen mit der hier beschriebenen Methodik eine verbesserte, also genauere und zuverlässigere Erkennung von Fehlklassifikationen des neuronalen Netzes 14 erreicht werden kann.Experiments have shown that, compared to conventional approaches, an improved, that is to say more precise and more reliable, detection of incorrect classifications of the neural network 14 can be achieved with the methodology described here.

Zur weiteren Veranschaulichung zeigt 3 eine schematische Darstellung eines Kraftfahrzeugs 34, das für das beschriebene Verfahren eingerichtet, also mit einer entsprechenden Erkennungseinrichtung ausgestattet ist. Das Kraftfahrzeug 34 weist hier eine Umgebungssensorik 36 auf. Diese Umgebungssensorik 36 kann beispielsweise eine Kamera sein oder umfassen, mittels welcher Bilder 16 einer jeweiligen Verkehrsszene in einer Umgebung des Kraftfahrzeugs 34 aufgenommen werden können. Weiter weist das Kraftfahrzeug 34 eine Assistenzeinrichtung 38 auf. Diese Assistenzeinrichtung 38 kann beispielsweise zum autonomen oder teilautonomen Steuern des Kraftfahrzeugs 34 oder zumindest einer Funktion des Kraftfahrzeugs 34 eingerichtet oder in eine solche Steuerung eingebunden sein.For further illustration shows 3 a schematic representation of a motor vehicle 34, which is set up for the method described, that is equipped with a corresponding detection device. The motor vehicle 34 has an environment sensor system 36 here. This environment sensor system 36 can be or include a camera, for example, by means of which images 16 of a respective traffic scene in an environment of motor vehicle 34 can be recorded. Motor vehicle 34 also has an assistance device 38 . This assistance device 38 can be set up, for example, for the autonomous or semi-autonomous control of the motor vehicle 34 or at least one function of the motor vehicle 34 or can be integrated into such a control.

Die Assistenzeinrichtung 38 ist mit der Umgebungssensorik 36 verbunden und kann von dieser bereitgestellte Bilder 16 erfassen und verarbeiten. Dazu weist die Assistenzeinrichtung 38 hier beispielhaft schematisch angedeutet einen Prozessor 40 und einen damit verbundenen Datenspeicher 42 auf. In dem Datenspeicher 42 sind vorliegend sowohl das neuronale Netz 14 als auch das Rekonstruktionsmodell 12 und das Vergleichsmodul 30 gespeichert. Weiter weist die Assistenzeinrichtung 38 eine Ausgangsschnittstelle 44 auf, über die ein hier ebenfalls schematisch angedeutetes Signal 46 ausgegeben werden kann.The assistance device 38 is connected to the environmental sensor system 36 and can capture and process images 16 provided by it. For this purpose, the assistance device 38 has a processor 40 and a data memory 42 connected thereto, which is indicated schematically here by way of example. In the present case, both the neural network 14 and the reconstruction model 12 and the comparison module 30 are stored in the data memory 42 . Furthermore, the assistance device 38 has an output interface 44, via which a signal 46, also indicated here schematically, can be output.

In einem Normalbetrieb, wenn also das neuronale Netz 14 das jeweilige Bild 16 korrekt klassifiziert, kann durch die Assistenzeinrichtung 38 beispielsweise eine Komponente, Funktion oder Fahrzeugeinrichtung 48 des Kraftfahrzeugs 34 gesteuert werden. Eine solche Steuerung soll jedoch nicht auf Grundlage einer Fehlklassifikation eines Bildes 16, also der jeweiligen Verkehrsszene durch das neuronale Netz 14 erfolgen. Ebenso kann der Fall auftreten, dass die jeweilige Verkehrsszene derart ungewöhnlich oder schwer zu klassifizieren ist, dass die autonome Steuerung des Kraftfahrzeugs 34 bzw. der Fahrzeugeinrichtung 48 unter Verwendung des neuronalen Netzes 14 nicht möglich ist. Derartige Fälle können wie beschrieben mittels des Rekonstruktionsmodells 12 und des Vergleichsmoduls 30, also mittels der Erkennungseinrichtung, automatisch erkannt werden. Daraufhin kann dann die Assistenzeinrichtung 38 automatisch das Signal 46 erzeugen und ausgeben, beispielsweise um eine Bedienperson zu warnen oder zur Übernahme der Kontrolle oder Steuerung des Kraftfahrzeugs 34 bzw. der Fahrzeugeinrichtung 48 aufzufordern.In normal operation, ie when neural network 14 correctly classifies respective image 16 , assistance device 38 can control a component, function, or vehicle device 48 of motor vehicle 34 , for example. However, such a control should not take place on the basis of an incorrect classification of an image 16, that is to say of the respective traffic scene, by the neural network 14. The case can also arise that the respective traffic scene is so unusual or difficult to classify that the autonomous control of the motor vehicle 34 or the vehicle device 48 using the neural network 14 is not possible. As described, such cases can be automatically recognized by means of the reconstruction model 12 and the comparison module 30, ie by means of the recognition device. The assistance device 38 can then automatically generate and output the signal 46 , for example to warn an operator or to request that he take over control or control of the motor vehicle 34 or the vehicle device 48 .

Beispielsweise kann das Signal 46 an eine hier schematisch angedeutete fahrzeugexterne Einrichtung 50 übermittelt werden. Daraufhin kann ein dort stationierter fahrzeugexterner Teleoperator 52 die Fernsteuerung des Kraftfahrzeugs 34 übernehmen.For example, the signal 46 can be transmitted to a vehicle-external device 50 indicated schematically here. A vehicle-external teleoperator 52 stationed there can then take over the remote control of motor vehicle 34 .

Insgesamt zeigen die beschriebenen Beispiele wie eine automatische Detektion unbekannter oder anspruchsvoller Situationen oder Umgebungen basierend auf einer Bildrekonstruktion, die ihrerseits auf Verarbeitungsergebnissen eines künstlichen neuronalen Netzwerks basiert, realisiert werden kann, um einen besonders sicheren Einsatz teilautonomer oder teilautomatisierter Einrichtungen zu ermöglichen.Overall, the examples described show how an automatic detection of unknown or challenging situations or environments based on an image reconstruction, which in turn is based on the processing results of an artificial neural network, can be realized in order to enable a particularly safe use of semi-autonomous or semi-automated devices.

BezugszeichenlisteReference List

1010: Trainingsschematraining scheme
1212: Rekonstruktionsmodellreconstruction model
1414: neuronales Netzneural network
1616: Bildpicture
1818: faltende Schichtenfolding layers
2020: räumliche Merkmalskartespatial feature map
2222: Klassifizierungsschichtclassification layer
2424: Klassifikationclassification
2626: Anwendungsschemaapplication scheme
2828: rekonstruierte Bilddatenreconstructed image data
3030: Vergleichsmodulcomparison module
3232: Bewertungvaluation
3434: Kraftfahrzeugmotor vehicle
3636: Umgebungssensorikenvironmental sensors
3838: Assistenzeinrichtungassistance facility
4040: Prozessorprocessor
4242: Datenspeicherdata storage
4444: Ausgangsschnittstelleoutput interface
4646: Signalsignal
4848: Fahrzeugeinrichtungin-vehicle equipment
5050: fahrzeugexterne Einrichtungvehicle-external device
5252: Teleoperatorteleoperator

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

DE 102018110369 A1 [0003]
CN 105809138A [0004]

Claims

Method (26) for automatically recognizing scenes whose correct classification is difficult for a provided artificial neural network (14), in which - a respective input image (16) representing the respective scene and provided to the neural network (14) trained for image processing is processed by means of the neural network (14) to generate an associated processing result, - in each case the input image (16) and the associated processing result (20, 24) are made available to a recognition device (12, 30), in which an assignment of processing results (20, 24) to image data, which in the past during corresponding data processing by the neural network (14) have correctly resulted in these processing results (20, 24), is stored, - by the recognition device (12, 30), starting from the respective processing result (20, 24), associated image data (28) reconstructed using the stored assignment are compared with the respective input image (16) and, if there is a discrepancy between them, the respective scene is classified as difficult to correct classify is recognized.

Method (26) according to claim 1 , characterized in that a reconstructed image (28) is generated from the respective processing result (20, 24) at least as part of the reconstructed image data (28), which has the same dimensions as the respective input image (16) and when comparing this in each case reconstructed image (28) is compared with the input image (16).

Method (26) according to one of the preceding claims, characterized in that the recognition device (12, 30) comprises an artificial neural reconstruction network (12) which, on the basis of processing results (20, 24) obtained in the case of correct classifications by the neural network (14), and the associated input images (16) has learned the assignment, and by means of this correspondingly trained reconstruction network (12) for the comparison, a reconstructed image (28) is generated at least as part of the reconstructed image data (28).

Method (26) according to claim 3 , characterized in that the reconstruction network (12) is trained in a GAN system.

Method (26) according to one of the preceding claims, characterized in that if the neural network (14) is trained for semantic segmentation, a final result (24) of the neural network (14) and otherwise an input-side feature extraction part (18) of the neural Network (14) and before an output-side semantic classification part (22) of the neural network (14) present spatial feature map (20) is used as the respective processing result (20; 24).

Method (26) according to one of the preceding claims, characterized in that the assignment assigns an average color value, which forms at least part of the image data, to a plurality of different semantic classes for which the neural network (14) is trained.

Method (26) according to one of the preceding claims, characterized in that the respective scene is then, in particular only then, recognized as difficult to classify correctly if the deviation between the reconstructed image data (28) and the input image (16) has at least one predetermined Threshold reached.

Method (26) according to one of the preceding claims, characterized in that the respective scene is then, in particular only then, recognized as difficult to classify correctly if the deviation between the reconstructed image data (28) and the input image (16) at least for one contiguous area of predetermined size, encompassing several pixels.

Assistance device (12, 30; 38), in particular for a motor vehicle (34), having a detection device (12, 30) in which processing results (20, 24) of an artificial neural network (14) trained for image processing are assigned to image data, which has correctly resulted in these processing results (20, 24) in the past during corresponding data processing by the neural network (14), the assistance device (12, 30; 38) for carrying out a method (26) according to one of preceding claims is set up.

Motor vehicle (34), having an assistance device (12, 30; 38). claim 9 , in particular set up to automatically output a control signal (46) to request that an operator (52) take over control of the vehicle when a scene that is difficult to correctly classify is detected in at least partially autonomous operation of the motor vehicle (34).