DE102022204364A1 - Quality determination of object recognition by a neural network - Google Patents
Quality determination of object recognition by a neural network Download PDFInfo
- Publication number
- DE102022204364A1 DE102022204364A1 DE102022204364.2A DE102022204364A DE102022204364A1 DE 102022204364 A1 DE102022204364 A1 DE 102022204364A1 DE 102022204364 A DE102022204364 A DE 102022204364A DE 102022204364 A1 DE102022204364 A1 DE 102022204364A1
- Authority
- DE
- Germany
- Prior art keywords
- neural network
- concept
- artificial neural
- concepts
- test image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 98
- 238000012360 testing method Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 230000008447 perception Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Validieren eines trainierten künstlichen neuronalen Netzes für die Objekterkennung in Bilddaten, aufweisend die Schritte: Bereitstellen (S1) eines Testbildes; Bereitstellen (S2) von auf das Testbild bezogenen Konzepten; Auslesen (S3) von latenten Repräsentationen aus einer inneren Ebene des neuronalen Netzes; Ermitteln (S4) von jeweiligen Distanzen zwischen einer jeweiligen latenten Repräsentation und allen Konzepten, und Zuordnen der jeweiligen latenten Repräsentation zu demjenigen der Konzepte mit der kürzesten Distanz; für jedes der Konzepte: Ermitteln (S5) eines Mittelwerts der jeweiligen Distanzen zwischen den dem jeweiligen Konzept zugeordneten latenten Repräsentationen und dem jeweiligen Konzept, und Ermitteln (S6) einer Güte der Objekterkennung durch einen für jedes der Konzepte ausgeführten jeweiligen Vergleich i) der Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit einem ersten vorgegebenen Grenzwert und ii) des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert.The invention relates to a method for validating a trained artificial neural network for object recognition in image data, comprising the steps: providing (S1) a test image; Providing (S2) concepts related to the test image; Reading out (S3) latent representations from an inner level of the neural network; Determining (S4) respective distances between a respective latent representation and all concepts, and assigning the respective latent representation to that of the concepts with the shortest distance; for each of the concepts: determining (S5) an average value of the respective distances between the latent representations assigned to the respective concept and the respective concept, and determining (S6) a quality of object recognition by carrying out a respective comparison i) of the number of latent representations assigned to the respective concept with a first predetermined limit value and ii) the mean value of the respective distances associated with the respective concept with a second predetermined limit value.
Description
Die Erfindung betrifft ein Verfahren zum Testen und/oder Validieren eines trainierten künstlichen neuronalen Netzes für die Erkennung einer Objektkategorie eines Objekts in Bilddaten.The invention relates to a method for testing and/or validating a trained artificial neural network for recognizing an object category of an object in image data.
Insbesondere im Bereich des automatisierten Fahrens von Fahrzeugen wie Personenkraftwagen oder Lastkraftwagen wird es zunehmend wichtig, maschinell die Umgebung des Fahrzeugs zu analysieren und Objekte wie Fußgänger in ihre entsprechende Kategorie einzuordnen. Eine solche Objekterkennung wird typischerweise auf Basis von visuellen Daten, beispielsweise aus einer Kamera, ausgeführt, kann prinzipiell alternativ oder ergänzend dazu jedoch auch andere Sensorarten einschließen. Unabhängig von der konkret verwendeten Sensorart wird hierfür ein Datensatz über die Umgebung des Fahrzeugs mit einer gewissen Wiederhol-Frequenz aufgenommen. Zur Erkennung von Objekten in einem solchen jeweils aktuellen Datensatz kann ein vorab-trainiertes künstliches neuronales Netz zum Einsatz kommen, welches als Eingangsdaten Informationen aus dem oben erwähnten Datensatz erhält, und im Sinne von Ausgangsdaten eine Einordnung eines in den Bilddaten sichtbaren Objekts in eine von mehreren vordefinierten Objektkategorien angibt. Zum Trainieren eines solchen künstlichen neuronalen Netzes werden typischerweise Informationen über Objekte aus diesen Kategorien für die Eingangsdaten verwendet, während die Vorgabe der jeweiligen Kategorie des jeweiligen betrachteten Objekts zusammen mit der Vorgabe der zugehörigen Position die vorgegebenen Ausgangsdaten darstellen. Am Beispiel des für ein automatisiertes Fahrzeug verwendeten künstlichen neuronalen Netzes wären dies beispielsweise die Kategorien: Fußgänger, Radfahrer, Personenkraftwagen, Baufahrzeug, etc.;Particularly in the area of automated driving of vehicles such as cars or trucks, it is becoming increasingly important to automatically analyze the vehicle's surroundings and classify objects such as pedestrians into their corresponding category. Such object recognition is typically carried out on the basis of visual data, for example from a camera, but can in principle alternatively or in addition to this also include other types of sensors. Regardless of the specific type of sensor used, a data set about the vehicle's surroundings is recorded with a certain repetition frequency. To recognize objects in such a current data set, a pre-trained artificial neural network can be used, which receives information from the above-mentioned data set as input data, and in the sense of output data, a classification of an object visible in the image data into one of several predefined object categories. To train such an artificial neural network, information about objects from these categories is typically used for the input data, while the specification of the respective category of the respective object under consideration together with the specification of the associated position represent the predetermined output data. Using the example of the artificial neural network used for an automated vehicle, these would be the categories: pedestrians, cyclists, passenger cars, construction vehicles, etc.;
Wegen der hohen Komplexität eines künstlichen neuronalen Netzes, verursacht durch eine enorm hohe Zahl von für den Menschen intuitiv praktisch nicht nachvollziehbarer interner Parameter, sticht häufig der Black-Box Charakter des künstlichen neuronalen Netzes im Vergleich zu alternativen, intuitiv vom Menschen beobachtbaren Systemen, hervor. Dies gilt insbesondere für die künstlichen tiefen neuronalen Netze, die eine sehr große Anzahl von Ebenen (sog. „layer“) aufweisen. Mit zunehmendem Automatisierungsgrad eines Fahrzeugs bis hin zu einem vollautomatischen bzw. autonomen Fahrzeug, welches keinen manuellen Eingriff durch einen Fahrer mehr benötigt, steigt jedoch auch das erforderte Sicherheitsniveau, da ein Fehler in der Zuordnung des Objekts in eine bestimmte von vorgegebenen Kategorien oder auch ein Fehler in der Lokalisierung, kurz gesagt in der „Objekterkennung“, tendenziell auch gravierendere Auswirkungen auf die Sicherheit des eigenen Fahrzeugs oder andere Verkehrsteilnehmer hat, je größer die Autorität über die Steuerung des Fahrzeugs durch das automatische Fahrsteuersystem ist. Eine häufig zu beobachtende Eigenschaft von künstlichen neuronalen Netzen ist jedoch, dass Abweichungen der aktuellen Eingangsdaten des künstlichen neuronalen Netzes in seinem Betrieb von den Eingangsdaten, die zu Trainingszwecken des künstlichen neuronalen Netzes verwendet wurden, zu gewissen und manchmal großen Abweichungen in den Ausgangsdaten des künstlichen neuronalen Netzes führen können. Es ist daher wichtig, die Zuverlässigkeit und Sicherheit eines künstlichen neuronalen Netzes bei der Verwendung für die Objekterkennung insbesondere in einer Anwendung des automatisierten Fahrens zu überprüfen und idealerweise quantifizieren zu können.Due to the high complexity of an artificial neural network, caused by an enormously high number of internal parameters that are practically incomprehensible to humans, the black-box character of the artificial neural network often stands out in comparison to alternative systems that can be intuitively observed by humans. This is particularly true for artificial deep neural networks, which have a very large number of levels (so-called “layers”). However, as the degree of automation of a vehicle increases, up to a fully automatic or autonomous vehicle that no longer requires manual intervention by a driver, the required level of safety also increases, as an error in the assignment of the object to a specific one of predetermined categories or even an error in localization, in short in “object recognition”, tends to have more serious effects on the safety of one's own vehicle or other road users, the greater the authority over the control of the vehicle by the automatic driving control system. However, a commonly observed property of artificial neural networks is that deviations in the current input data of the artificial neural network in its operation from the input data used for training purposes of the artificial neural network result in certain and sometimes large deviations in the output data of the artificial neural network network. It is therefore important to check and ideally be able to quantify the reliability and safety of an artificial neural network when used for object recognition, particularly in an automated driving application.
Die folgenden Informationen beziehen sich nicht auf ein konkretes Dokument im Stand der Technik, sondern sind allgemein verfügbares Fachwissen: Gängige künstliche tiefe neuronale Netze in der Anwendung für die Erkennung einer Objektkategorie auf Basis von visuellen Daten wie aus Kamerabildern sind typischerweise nicht interpretierbar und damit nicht evidenzbasiert. Dies erschwert den breiteren Einsatz in sicherheitskritischen Anwendungen z.B. im Bereich des automatisierten Fahrens von Fahrzeugen wie Personenkraftwagen oder Lastkraftwagen. Unmodifizierte künstliche tiefe neuronale Netze besitzen typischerweise eine Anzahl von Merkmalsextrationsebenen und eine Anzahl von nicht-interpretierbaren Perzeptionsebenen. Hierbei erzeugen die Merkmalsextraktionsebenen für gegebene Eingangsdaten wie 2D-Bilddaten einen nicht-interpretierbaren latenten Repräsentationsdatensatz mit einer Vielzahl latenter Repräsentationen. Die nicht-interpretierbaren Perzeptionsebenen erzeugen auf Basis der latenten Repräsentationen des jeweiligen Repräsentationsdatensatzes Detektionen, das heißt hier erfolgt die Zuordnung der von den Bilddaten umfassten Objekte in Objektkategorien.The following information does not refer to a specific document in the prior art, but is generally available specialist knowledge: Common artificial deep neural networks used for recognizing an object category based on visual data such as camera images are typically not interpretable and therefore not evidence-based . This makes broader use in safety-critical applications, e.g. in the area of automated driving of vehicles such as cars or trucks, more difficult. Unmodified artificial deep neural networks typically have a number of feature extraction levels and a number of uninterpretable perception levels. Here, the feature extraction levels generate a non-interpretable latent representation data set with a large number of latent representations for given input data such as 2D image data. The non-interpretable perception levels generate detections based on the latent representations of the respective representation data set, which means that the objects included in the image data are assigned to object categories.
Der Begriff der „Interpretierbarkeit“ sowie der Ausdruck „ein interpretierbarer Vergleich“ werden jeweils auf Basis des Verständnisses des Begriffs „interpretierbar“ im Sinne von „algorithmisch nachvollziehbar“ im vorliegenden Zusammenhang verwendet. Die „Interpretierbarkeit“ wird entsprechend als „algorithmische Nachvollziehbarkeit“ und „ein interpretierbarer Vergleich“ als „ein algorithmisch nachvollziehbarer Vergleich“ verstanden. Der Begriff „interpretierbar“ ist daher nicht grundsätzlich gleichsetzbar mit dem Ausdruck „intuitiv verständlich für einen Menschen“.The term “interpretability” and the expression “an interpretable comparison” are each used in the present context based on the understanding of the term “interpretable” in the sense of “algorithmically comprehensible”. “Interpretability” is understood as “algorithmic comprehensibility” and “an interpretable comparison” as “an algorithmically comprehensible comparison”. The term “interpretable” is therefore not fundamentally equivalent to the expression “intuitively understandable to a person”.
In der Publikation „Leveraging Interpretability: Concept-based Pedestrian Detection with Deep Neural Networks“ der Autoren Patrick Feifel, Frank Bonarens und Frank Köster, CSCS '21, November 30, 2021, Ingolstadt, Germany (verfügbar zum Zeitpunkt des Schreibens unter https://dl.acm.org/doi/fullHtml/10.1145/3488904.3493379 bzw. https://doi.org/10.1145/3488904.3493379) sind semantische Segmentierungen sowie die Detektion von Begrenzungsrahmen mit der Lokalisierung und Klassifizierung eines Objektes gezeigt. Diese Publikation wird hiermit durch Verweis einbezogen. Diese Publikation befasst sich insbesondere damit, sogenannte „Konzepte“ in einer Bildszene durch die Verwendung von Abständen („Distanzen“) zu identifizieren. Anschaulich betrachtet am Beispiel eines Fußgängers als zu identifizierendes Objekt in einer Straßenverkehrssituation entsprechen diese „Konzepte“ im Sinne dieser Publikation bevorzugt vordefinierten Körperteilen, welche im Sinne einer semantischen Segmentierung des Objekts „Fußgänger“ einzeln erkannt werden. Um den oben beschriebenen Nachteil der unmodifizierten Merkmalsextraktionsebenen mit nicht-interpretierbaren latenten Repräsentationen zu vermeiden, wird in dieser Publikation eine Modifikation verwendet, die eine Transformation der latenten Repräsentationen zur Erzeugung von nachgelagerten interpretierbaren Perzeptionsebenen umfasst, welche auf Basis der jeweiligen Ähnlichkeiten der interpretierbaren latenten Repräsentationen die finalen Detektionen erlaubt. Es kann zum Zwecke einer solchen Transformation eine Anzahl von Transformationsebenen und eine Anzahl von interpretierbaren Perzeptionsebenen verwendet werden. Hierbei bilden die Transformationsebenen den nicht-interpretierbaren latenten Raum des gängigen künstlichen neuronalen Netzes auf den interpretierbaren Raum des modifizierten künstlichen neuronalen Netzes ab. Der transformierte, interpretierbare, latente Repräsentationsdatensatz mit der Menge der latenten Repräsentationen kann dann mit einer Anzahl von gelernten Vektoren von Konzepten auf Ähnlichkeit hin verglichen werden. Für weitere Details sei auf die oben zitierte Publikation verwiesen.In the publication “Leveraging Interpretability: Concept-based Pedestrian Detection with Deep Neural Networks” by the authors Patrick Feifel, Frank Bonarens and Frank Köster, CSCS '21, November 30, 2021, Ingolstadt, Germany (available at the time of writing at https://dl.acm.org/doi/fullHtml/10.1145/3488904.3493379 and https://doi.org, respectively /10.1145/3488904.3493379) semantic segmentations as well as the detection of bounding boxes with the localization and classification of an object are shown. This publication is hereby incorporated by reference. This publication is particularly concerned with identifying so-called “concepts” in an image scene through the use of distances. Considered clearly using the example of a pedestrian as an object to be identified in a road traffic situation, these “concepts” in the sense of this publication preferably correspond to predefined body parts, which are recognized individually in the sense of a semantic segmentation of the “pedestrian” object. In order to avoid the above-described disadvantage of unmodified feature extraction levels with non-interpretable latent representations, this publication uses a modification that includes a transformation of the latent representations to generate downstream interpretable perception levels, which are based on the respective similarities of the interpretable latent representations final detections allowed. For the purpose of such a transformation, a number of transformation levels and a number of interpretable perception levels can be used. Here, the transformation levels map the non-interpretable latent space of the common artificial neural network onto the interpretable space of the modified artificial neural network. The transformed, interpretable, latent representation dataset containing the set of latent representations can then be compared for similarity to a number of learned vectors of concepts. For further details please refer to the publication cited above.
Ein zentrales Problem bei der Bewertung von gängigen künstlichen neuronalen Netzen ist, dass die üblichen Metriken für die Beurteilung des Risikos einer Fehlerkennung nicht geeignet sind. Daher kann prinzipiell eine Metrik herangezogen werden, die repräsentativ für die latenten Repräsentationen im latenten Raum des künstlichen neuronalen Netzes sind. Dennoch bleibt auch hier das Problem bestehen, wie die Entscheidung über eine Fehlerkennung getroffen werden kann, und wird häufig daher von einer einzigen, meist willkürlichen Schwelle abhängig gemacht.A central problem when evaluating common artificial neural networks is that the usual metrics for assessing the risk of false detection are not suitable. Therefore, in principle, a metric can be used that is representative of the latent representations in the latent space of the artificial neural network. However, the problem remains here as to how the decision about false detection can be made and is therefore often made dependent on a single, usually arbitrary threshold.
Aufgabe der Erfindung ist es vor diesem Hintergrund, zum Testen und/oder Validieren eines bereits trainierten künstlichen neuronalen Netzes, insbesondere eines zur Interpretierbarkeit seines latenten Raums modifizierten künstlichen neuronalen Netzes, zum Zwecke der Einordenbarkeit von Objekten in einem Bild, kurz genannt „Objekterkennung“, auf geeignete Weise eine Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz zu ermitteln, sodass eine Zuverlässigkeit der Objekterkennung quantifizierbar ist.Against this background, the object of the invention is to test and/or validate an already trained artificial neural network, in particular an artificial neural network modified to make its latent space interpretable, for the purpose of classifying objects in an image, briefly referred to as “object recognition”. to appropriately determine the quality of the recognition of an object category by the artificial neural network, so that the reliability of the object recognition can be quantified.
Die Erfindung ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.The invention results from the features of the independent claims. Advantageous further developments and refinements are the subject of the dependent claims.
Ein erster Aspekt der Erfindung betrifft ein Verfahren zum Testen und/oder Validieren eines trainierten künstlichen neuronalen Netzes, welches zumindest für die Erkennung einer Objektkategorie eines Objekts in Bilddaten dient, aufweisend die Schritte:
- - Bereitstellen eines Testbildes mit Informationen über mindestens ein Objekt aus einer von vorgegebenen Objektkategorien, die möglichen Ausgangsgrößen des künstlichen neuronalen Netzes entsprechen,
- - Bereitstellen von Konzeptmasken für auf das Testbild bezogene Konzepte, wobei ein jeweiliges Konzept vorab, insbesondere für das Training des künstlichen neuronalen Netzes, als Teilelement eines jeweiligen Objekts aus den vorgegebenen Objektkategorien definiert wurde,
- - Auslesen von latenten Repräsentationen und Konzeptparametern des jeweiligen Konzepts aus einer inneren Ebene des künstlichen neuronalen Netzes nach Verwendung des Testbildes für die Eingangsdaten des künstlichen neuronalen Netzes,
- - Ermitteln von jeweiligen Distanzen zwischen einer jeweiligen latenten Repräsentation und allen Konzepten mit den ausgelesenen Konzeptparametern unter Anwendung der jeweiligen Konzeptmaske eines jeweiligen Konzepts, und Zuordnen der jeweiligen latenten Repräsentation zu demjenigen der Konzepte mit der kürzesten Distanz,
- - Für jedes der Konzepte: Ermitteln eines Mittelwerts der jeweiligen Distanzen zwischen den dem jeweiligen Konzept zugeordneten latenten Repräsentationen und dem jeweiligen Konzept, und
- - Ermitteln einer Güte einer Objekterkennung zumindest auf Basis der Erkennung einer Objektkategorie durch das künstliche neuronale Netz durch einen für jedes der Konzepte ausgeführten jeweiligen Vergleich i) der Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit einem ersten vorgegebenen Grenzwert und ii) des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert.
- - Providing a test image with information about at least one object from one of predetermined object categories that correspond to possible output variables of the artificial neural network,
- - Providing concept masks for concepts related to the test image, whereby a respective concept was defined in advance, in particular for training the artificial neural network, as a sub-element of a respective object from the predetermined object categories,
- - Reading out latent representations and concept parameters of the respective concept from an inner level of the artificial neural network after using the test image for the input data of the artificial neural network,
- - Determining respective distances between a respective latent representation and all concepts with the read concept parameters using the respective concept mask of a respective concept, and assigning the respective latent representation to that of the concepts with the shortest distance,
- - For each of the concepts: determining an average of the respective distances between the latent representations assigned to the respective concept and the respective concept, and
- - Determining a quality of object recognition at least based on the recognition of an object category by the artificial neural network by comparing i) the number of latent representations assigned to the respective concept with a first predetermined one, carried out for each of the concepts a limit value and ii) the mean value of the respective distances associated with the respective concept with a second predetermined limit value.
Das künstliche neuronale Netz, welches es zu evaluieren gilt, wurde insbesondere mit realen oder synthetischen Testdaten bereits trainiert. In einem solchen Trainingsvorgang werden typischerweise an einer regulären Eingangsschnittstelle Eingangsdaten in das künstliche neuronale Netz gegeben, und eine entsprechende Berechnung mittels der Elemente des künstlichen neuronalen Netzes (insbesondere Transformationsebenen, Neuronen, Gewichte, Ebenen, Nichtlinearitäten) durchgeführt, woraufhin mithilfe entsprechender Aktivierungsfunktionen einer von mehreren möglichen Ausgangsgrößen aktiviert wird, welche bevorzugt einer Objektkategorie entspricht. Solche Objektkategorien für die Anwendung im Straßenverkehr können Fußgänger, Fahrradfahrer, Lastkraftwagen, Personenkraftwagen, Verkehrsschilder und Ähnliches sein. Durch die Vorgabe des Ergebnisses kann durch die sogenannte „back propagation“ eine Optimierung der Parameter des künstlichen neuronalen Netzes erfolgen.The artificial neural network that needs to be evaluated has already been trained, in particular with real or synthetic test data. In such a training process, input data is typically given to the artificial neural network at a regular input interface, and a corresponding calculation is carried out using the elements of the artificial neural network (in particular transformation levels, neurons, weights, levels, nonlinearities), followed by one of several using appropriate activation functions possible output variables is activated, which preferably corresponds to an object category. Such object categories for use in road traffic can be pedestrians, cyclists, trucks, cars, traffic signs and the like. By specifying the result, the parameters of the artificial neural network can be optimized using so-called “back propagation”.
Naturgemäß weichen im Betrieb des künstlichen neuronalen Netzes aus Bilddaten erfasste Objekte von den zu Trainingszwecken verwendeten Objekten grundsätzlich ab. Um die Qualität der Objekterkennung für ein individuelles Objekt ermitteln zu können, wird vorliegend ein Testbild bereitgestellt, welches ein echtes Kamerabild, ein modifiziertes Kamerabild, oder ein vollsynthetisches Bild beispielsweise aus einer Simulation sein kann.Naturally, objects captured from image data during operation of the artificial neural network fundamentally differ from the objects used for training purposes. In order to be able to determine the quality of object recognition for an individual object, a test image is provided here, which can be a real camera image, a modified camera image, or a fully synthetic image, for example from a simulation.
Das Testbild wird dabei bevorzugt als so beschaffen ausgewählt, dass die Quelle der Bilddaten im späteren Betrieb des künstlichen neuronalen Netzes in einem automatisierten Fahrzeug von der Beschaffenheit her vergleichbare Eigenschaften (Auflösung etc.) aufweist. Beispielhafte Quellen von Bilddaten im späteren Betrieb des künstlichen neuronalen Netzes sind: Kamera für Licht im sichtbaren Bereich, Infrarotkamera, Stereokamera, etc.;The test image is preferably selected to be such that the source of the image data has comparable properties (resolution, etc.) in later operation of the artificial neural network in an automated vehicle. Example sources of image data in the later operation of the artificial neural network are: camera for light in the visible range, infrared camera, stereo camera, etc.;
Bevorzugt wird für die Ermittlung der Güte der Erkennung gemäß dem ersten Aspekt der Erfindung ein modifiziertes künstliches interpretierbares tiefes neuronales Netz verwendet, welches insbesondere eine Anzahl von Transformationsebenen und eine Anzahl von interpretierbaren Perzeptionsebenen aufweist. Hierbei bilden die Transformationsebenen den nicht-interpretierbaren latenten Raum des oben beschriebenen gängigen künstlichen tiefen neuronalen Netzes auf den interpretierbaren Raum des erweiterten künstlichen interpretierbaren tiefen neuronalen Netzes ab. Beispielsweise ein so modifiziertes künstliches neuronales Netz kann eine Lage der Vektoren aus Konzepten liefern, die den latenten Raum des künstlichen neuronalen Netzes strukturieren und eine Interpretierbarkeit ermöglichen. Beispielsweise kann das im Stand der Technik bekannte „ProtoPNet“ verwendet werden (C. Chen, O. Li, A. Barnett, J. Su, C. Rudin, „This looks like that: deep learning for interpretable image recognition“. Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems. 2019,
NeuriPS 2019).To determine the quality of the recognition according to the first aspect of the invention, a modified artificial interpretable deep neural network is preferably used, which in particular has a number of transformation levels and a number of interpretable perception levels. Here, the transformation levels map the non-interpretable latent space of the common artificial deep neural network described above onto the interpretable space of the extended artificial interpretable deep neural network. For example, an artificial neural network modified in this way can provide a layer of vectors of concepts that structure the latent space of the artificial neural network and enable interpretability. For example, the “ProtoPNet” known in the prior art can be used (C. Chen, O. Li, A. Barnett, J. Su, C. Rudin, “This looks like that: deep learning for interpretable image recognition”. Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems. 2019,
NeuriPS 2019).
Diese Interpretierbarkeit im Sinne der algorithmischen Nachvollziehbarkeit erlaubt es, einen interpretierbaren Vergleich zwischen den eingangs erwähnten Konzepten und den latenten Repräsentationen vorzunehmen. Beispielsweise können die als Segmente definierten Körperteile eines Objekts „Fußgänger“ mit zugehörigen auslesbaren Daten im latenten Raum des künstlichen interpretierbaren tiefen neuronalen Netzes verglichen werden, lediglich indem beide in kompatiblen Datenformaten gehandhabt werden. Bevorzugt wird hierbei eine vektorielle Form sowohl für die Definition der jeweiligen Konzepte als auch der zugehörigen latenten Repräsentationen des verwendeten interpretierbaren künstlichen tiefen neuronalen Netzes verwendet, um ein Maß für eine Abweichung dieser Vektoren voneinander zu ermitteln, bevorzugt mittels einer Vektornorm, besonders bevorzugt mit der 2-Norm zur Ermittlung einer euklidischen Distanz des Vektors eines jeweiligen Konzepts von dem jeweils betrachteten Vektor der latenten Repräsentation des künstlichen interpretierbaren tiefen neuronalen Netzes.This interpretability in the sense of algorithmic comprehensibility allows an interpretable comparison to be made between the concepts mentioned at the beginning and the latent representations. For example, the body parts of an object “pedestrian” defined as segments can be compared with associated readable data in the latent space of the artificial interpretable deep neural network, simply by handling both in compatible data formats. In this case, a vector form is preferably used both for the definition of the respective concepts and the associated latent representations of the interpretable artificial deep neural network used in order to determine a measure of a deviation of these vectors from one another, preferably by means of a vector norm, particularly preferably with the 2nd -Norm for determining a Euclidean distance of the vector of a respective concept from the vector of the latent representation of the artificially interpretable deep neural network being considered.
Die Begriffe „Konzept“ sowie „latente Repräsentation“ werden analog zum Gegenstand der eingangs erwähnten Publikation verwendet. Für weitere Eigenschaften dieser generell bekannten Begriffe wird daher auf die oben genannte Publikation verwiesen. Zum Verständnis sei wiederholt erwähnt, dass ein jeweiliges Konzept bevorzugt zusammen mit dem Training (d. h. Optimierung der Parameter) des künstlichen neuronalen Netzes erhalten wird und damit für das Verfahren gemäß dem ersten Aspekt der Erfindung bereits vorliegt. Ein jeweiliges Konzept entstammt dabei dem latenten Raum des künstlichen neuronalen Netzes und gruppiert die latenten Repräsentation gemäß strukturierbarer Ähnlichkeiten, wobei die Gruppierung gemäß dieser Ähnlichkeiten an sich für die Definition eines jeweiligen Konzeptes selbst dient. Für das Verfahren gemäß dem ersten Aspekt der Erfindung ist dabei ein jeweiliges Konzept als gegeben anzunehmen und die Gesamtheit der Konzepte ist funktionell als Mittel zu verstehen, das den latenten Raum des künstlichen neuronalen Netze strukturiert, sowie objektbezogen als Teilelement des Objekts zu verstehen. Durch eine solche Strukturierung in Konzepte ergibt sich die Interpretierbarkeit des künstlichen neuronalen Netzes.The terms “concept” and “latent representation” are used analogously to the subject of the publication mentioned at the beginning. For further properties of these generally known terms, please refer to the publication mentioned above. For the sake of understanding, it should be mentioned repeatedly that a respective concept is preferably obtained together with the training (ie optimization of the parameters) of the artificial neural network and is therefore already available for the method according to the first aspect of the invention. A respective concept comes from the latent space of the artificial neural network and groups the latent representations according to structurable similarities, whereby the grouping according to these similarities serves to define a respective concept itself. For the method according to the first aspect of the invention, a respective concept is to be assumed as given and the entirety of the concepts is to be understood functionally as a means that structures the latent space of the artificial neural network, and in relation to the object as a partial element of the object. Such structuring into concepts results in: Interpretability of the artificial neural network.
Diese Interpretierbarkeit erlaubt die Nutzung der Zahl der Zuordnungen von latenten Repräsentation zu einem jeweiligen der Konzepte, sowie die Berechnung der mittleren Distanz aller einem Konzept zugeordneten latenten Repräsentation zum Konzept selbst, bevorzugt durch die Ermittlung der Distanzen als den jeweiligen Abständen durch die Anwendung einer n-Norm, bevorzugt der 2-Norm (auch genannt die „euklidische Distanz“). Sind beispielsweise sechs Konzepte vorhanden, so werden relevante latente Repräsentation ermittelt, die jeweils genau einem der sechs Konzepte zuzuordnen sind, anstatt zu Bereichen außerhalb der Konzepte. Ein Maß dafür, wie sehr dies für ein jeweiliges Konzept gelingt, wird durch den Vergleich der Zahl der zugeordneten latenten Repräsentation zu einem bestimmten der Konzepte mit einem ersten Grenzwert (Vergleich i)) ermittelt. Ein weiterer Bestandteil der Güte ist der Vergleich des mittleren Abstands dieser Zuordnungen, d. h. zwischen einer jeweiligen latenten Repräsentation und dem jeweiligen Konzept. Je kürzer diese Distanz ist, umso besser erfolgt die Zuordnung einer latenten Repräsentation zu einem der Konzepte.This interpretability allows the use of the number of assignments of latent representations to each of the concepts, as well as the calculation of the average distance of all latent representations assigned to a concept to the concept itself, preferably by determining the distances as the respective distances by using an n- Norm, preferably the 2-norm (also called the “Euclidean distance”). For example, if there are six concepts, relevant latent representations are determined, each of which can be assigned to exactly one of the six concepts rather than to areas outside the concepts. A measure of how successful this is for a respective concept is determined by comparing the number of assigned latent representations to a specific concept with a first limit value (comparison i)). Another component of quality is the comparison of the average distance between these assignments, i.e. H. between a respective latent representation and the respective concept. The shorter this distance, the better the assignment of a latent representation to one of the concepts.
Indem für jedes der Konzepte eines Objekts der Vergleich i) und der Vergleich ii) wiederholt wird, kann auf die Qualität der Objekterkennung bzgl. des Objekts leicht geschlossen werden, indem bspw. je Objekt die Zahl der Überschreitungen des ersten Grenzwerts und die Zahl der Unterschreitungen des zweiten Grenzwerts betrachtet werden - oder andersherum um den Mangel der Güte zu definieren.By repeating comparison i) and comparison ii) for each of the concepts of an object, it is easy to draw conclusions about the quality of object recognition with regard to the object, for example by determining the number of times the first limit value is exceeded and the number of times it falls below the limit value for each object of the second limit value - or the other way around to define the lack of quality.
Bevorzugt erfolgt daher das Ermitteln der Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz durch einen für jedes der Konzepte ausgeführten jeweiligen Vergleich i) der Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit einem ersten vorgegebenen Grenzwert auf Überschreiten und ii) des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert auf Unterschreiten.The quality of the recognition of an object category by the artificial neural network is therefore preferably determined by comparing i) the number of latent representations assigned to the respective concept with a first predetermined limit value for each of the concepts and ii) the corresponding concept associated mean value of the respective distances with a second predetermined limit value.
Der Vergleich der Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit einem ersten vorgegebenen Grenzwert sowie der Vergleich des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert kann sowohl durch Differenzbildung zu dem jeweiligen Grenzwert erfolgen, kann jedoch auch durch eine Division mit Bezug auf den jeweiligen Grenzwert erfolgen, sodass beispielsweise eine Prozentangabe relativ zum jeweiligen Grenzwert erhalten wird. So kann wie folgt vorgegangen werden: Vergleich i): (Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen minus erster vorgegebener Grenzwert) oder (Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen geteilt durch den ersten vorgegebenen Grenzwert), sowie Vergleich ii): (der zum jeweiligen Konzept zugehöriger Mittelwert der jeweiligen Distanzen minus zweiter vorgegebener Grenzwert) oder (der zum jeweiligen Konzept zugehöriger Mittelwert der jeweiligen Distanzen geteilt durch den zweiten vorgegebenen Grenzwert).The comparison of the number of latent representations assigned to the respective concept with a first predetermined limit value as well as the comparison of the mean value of the respective distances associated with the respective concept with a second predetermined limit value can be done both by forming a difference to the respective limit value, but can also be done by dividing with Reference is made to the respective limit value, so that, for example, a percentage is obtained relative to the respective limit value. The procedure can be as follows: Comparison i): (number of latent representations assigned to the respective concept minus the first specified limit value) or (number of latent representations assigned to the respective concept divided by the first specified limit value), and comparison ii): (the the mean value of the respective distances associated with the respective concept minus the second predetermined limit value) or (the mean value of the respective distances associated with the respective concept divided by the second predetermined limit value).
Das Verfahren zum Testen und/oder Validieren des trainierten künstlichen neuronalen Netzes für die Erkennung einer Objektkategorie eines Objekts in Bilddaten kann mit mehreren Objekten verschiedener Objektkategorien durchgeführt werden, es kann jedoch auch eines oder mehrere Objekte aus einer einzigen gemeinsamen Objektkategorie genutzt werden, da auch in diesem Fall das jeweils individuelle Objekt auf seine Erkennung hin überprüft werden kann.The method for testing and/or validating the trained artificial neural network for the recognition of an object category of an object in image data can be carried out with several objects of different object categories, but one or more objects from a single common object category can also be used, since also in In this case, the individual object can be checked for recognition.
Es ist eine vorteilhafte Wirkung der Erfindung, dass eine Risikoeinstufung von Objekten in einem realen Szenario der Objekterkennung, beispielsweise in einer Anwendung für ein automatisiertes Fahrzeug, verbessert wird. Vorteilhaft wird mit dem erfindungsgemäßen Verfahren ein algorithmisch nachvollziehbares Verfahren mit Metriken und Grenzwerten angegeben, das zu einer Risikobewertung von Tensoren aus den tiefen Schichten eines künstlichen neuronalen Netzes, nämlich den latenten Repräsentationen, geeignet ist. So wird unter anderem die Erweiterung eines bestehenden und bereits leistungsfähigen sogenannten Automated Driving Systems (ADS) gemäß Stand der Technik ermöglicht und die Industrialisierung durch eine verbesserte Sicherheitsargumentation erleichtert. Insbesondere die Berücksichtigung der algorithmischen Abstände im latenten Raum liefert Entwicklern wichtige Hinweise auf Objekte, die ein höheres Risiko zum Scheitern einer korrekten Objekterkennung aufweisen. Dieses Wissen kann selbst wiederum zur Verbesserung des verwendeten künstlichen neuronalen Netzes genutzt werden.It is an advantageous effect of the invention that a risk classification of objects is improved in a real scenario of object recognition, for example in an application for an automated vehicle. The method according to the invention advantageously provides an algorithmically comprehensible method with metrics and limit values, which is suitable for a risk assessment of tensors from the deep layers of an artificial neural network, namely the latent representations. Among other things, this enables the expansion of an existing and already powerful so-called Automated Driving System (ADS) in accordance with the state of the art and facilitates industrialization through improved safety arguments. In particular, taking into account the algorithmic distances in the latent space provides developers with important information about objects that have a higher risk of failing correct object recognition. This knowledge can itself be used to improve the artificial neural network used.
Gemäß einer vorteilhaften Ausführungsform umfasst die Güte der Objekterkennung die Erkennung einer Objektkategorie eines Objekts und eine Lokalisierung des Objekts im Testbild, und das Verfahren weist weiterhin die Schritte auf:
- - Bereitstellen eines idealen Begrenzungsrahmens für ein jeweiliges Objekt des Testbildes ohne die Anwendung des künstlichen neuronalen Netzes,
- - Ermitteln eines anwendungsbezogenen Begrenzungsrahmens für ein jeweiliges Objekt des Testbildes durch Anwendung des künstlichen neuronalen Netzes mit dem Testbild für die Eingangsdaten des künstlichen neuronalen Netzes, wobei ein jeweiliger idealer Begrenzungsrahmen und ein jeweiliger anwendungsbezogener Begrenzungsrahmen jeweils einen geometrischen Bereich des Testbildes mit dem jeweiligen Objekt eingrenzen, und
- - Ermitteln eines Maßes für die Übereinstimmung zwischen dem idealen Begrenzungsrahmen und dem anwendungsbezogenen Begrenzungsrahmen als zusätzlichen Qualitätsterm für die Güte der Erkennung der Objektkategorie durch das künstliche neuronale Netz.
- - Providing an ideal bounding box for a respective object of the test image without using the artificial neural network,
- - Determining an application-related bounding box for a respective object of the test image by using the artificial chen neural network with the test image for the input data of the artificial neural network, wherein a respective ideal bounding box and a respective application-related bounding box each delimit a geometric area of the test image with the respective object, and
- - Determining a measure of the agreement between the ideal bounding box and the application-related bounding box as an additional quality term for the quality of the recognition of the object category by the artificial neural network.
Der ideale Begrenzungsrahmen (in der Fachwelt auch genannt „Ground-Truth-Bounding-Box“ oder „Ground-Truth-2D-Bounding-Box“) wird durch Vorwissen und insbesondere mit Hilfe entsprechender Annotierungen der Konzepte bereitgestellt, welches aufgrund des vorher bekannten Testbildes vorliegt. Der ideale Begrenzungsrahmen ist somit als bestmöglicher Begrenzungsrahmen zu verstehen, gegenüber dem ein jeweiliger anwendungsbezogener Begrenzungsrahmen verglichen werden kann. Vorteilhaft werden gemäß dieser Ausführungsform sowohl die nicht-interpretierbaren, erkannten anwendungsbezogenen Begrenzungsrahmen als auch die auf Konzepten basierenden Distanzen der latenten Repräsentationen in den interpretierbaren tiefen Lagen eines künstlichen neuronalen Netzes herangezogen. Der zusätzliche Qualitätsterm fließt vorteilhaft somit in die Güte der Erkennung, wie oben erläutert, mit ein.The ideal bounding box (also called “ground truth bounding box” or “ground truth 2D bounding box” in the professional world) is provided through prior knowledge and in particular with the help of appropriate annotations of the concepts, which is based on the previously known test image is present. The ideal bounding frame is therefore to be understood as the best possible bounding frame against which a respective application-related bounding frame can be compared. According to this embodiment, both the non-interpretable, recognized application-related bounding frames and the concept-based distances of the latent representations in the interpretable deep layers of an artificial neural network are advantageously used. The additional quality term is thus advantageously included in the quality of the recognition, as explained above.
Gemäß einer weiteren vorteilhaften Ausführungsform wird die Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz eines jeweiligen Objekts im Testbild in vorgegebene Kategorien eingeteilt, wobei bei Unterschreiten des ersten vorgegebenen Grenzwerts als Ergebnis des Vergleichs i) in Bezug auf eines der Konzepte oder auch bei Unterschreiten des Maßes für die Übereinstimmung zwischen dem idealen Begrenzungsrahmen und dem anwendungsbezogenen Begrenzungsrahmen unter einen dritten vorgegebenen Grenzwert das dem Konzept zugehörige Objekt als fehlerhaft-erkannt oder nicht-erkannt eingestuft wird, und nur andernfalls der Vergleich ii) ausgeführt wird.According to a further advantageous embodiment, the quality of the recognition of an object category by the artificial neural network of a respective object in the test image is divided into predetermined categories, whereby if the first predetermined limit value falls below the result of the comparison i) in relation to one of the concepts or if the value falls below of the measure of agreement between the ideal bounding box and the application-related bounding box falls below a third predetermined limit value, the object associated with the concept is classified as incorrectly recognized or not recognized, and only otherwise comparison ii) is carried out.
Demnach wird nur der oben erläuterte der Vergleich ii) des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert ausgeführt, wenn das dem Konzept zugehörige Objekt nicht als „fehlerhaft-erkannt“ oder nicht als „nicht-erkannt“ aufgrund mangelnder Übereinstimmung zwischen dem idealen Begrenzungsrahmen und dem anwendungsbezogenen Begrenzungsrahmen eingestuft wird, sondern als zumindest ansatzweise korrekt erkannt. Bei einem ausreichend passend gefundenem anwendungsbezogenen Begrenzungsrahmen werden dann insbesondere alle Pixel, die jeweils einem der Konzepte zugeordnet werden konnten, ermittelt. Die Distanzen aller zugeordneten Konzeptpixel werden bevorzugt anschließend je Konzept gemittelt, wonach der erhaltende Mittelwert mit dem zweiten Grenzwert verglichen werden kann. Ein solches bedingtes, zweistufige Verfahren liefert vorteilhaft Entwicklern und Testern relevante Hinweise auf Objekte, die zwar über eine anwendungsbezogenen Begrenzungsrahmen noch erkannt werden, aber ein algorithmisch begründetes, erhöhtes Risiko zur Fehldetektion aufweisen.Accordingly, only the above-explained comparison ii) of the mean value of the respective distances associated with the respective concept is carried out with a second predetermined limit value if the object associated with the concept is not recognized as “erroneous” or “not recognized” due to a lack of agreement between the ideal bounding box and the application-related bounding box, but is recognized as at least partially correct. If the application-related bounding box is found to be sufficiently suitable, all pixels that could be assigned to one of the concepts are then determined. The distances of all assigned concept pixels are then preferably averaged for each concept, after which the resulting mean value can be compared with the second limit value. Such a conditional, two-stage process advantageously provides developers and testers with relevant information about objects that are still recognized via an application-related bounding box, but have an algorithmically based, increased risk of false detection.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt das Ermitteln des Mittelwerts der jeweiligen Distanzen zwischen den dem jeweiligen Konzept zugeordneten latenten Repräsentationen und dem jeweiligen Konzept nur auf Basis von latenten Repräsentationen, die Pixeln des Testbildes zugeordnet sind, die sich innerhalb des idealen Begrenzungsrahmens befinden. Dies vereinfacht vorteilhaft den Berechnungsaufwand.According to a further advantageous embodiment, the determination of the mean value of the respective distances between the latent representations assigned to the respective concept and the respective concept takes place only on the basis of latent representations which are assigned to pixels of the test image which are located within the ideal bounding box. This advantageously simplifies the calculation effort.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt das Ermitteln eines Maßes für die Übereinstimmung zwischen dem idealen Begrenzungsrahmen und dem anwendungsbezogenen Begrenzungsrahmen durch Vergleich der gemeinsamen Flächen des idealen Begrenzungsrahmens und dem anwendungsbezogenen Begrenzungsrahmen oder der voneinander abweichenden Fläche zwischen dem idealen Begrenzungsrahmen und dem anwendungsbezogenen Begrenzungsrahmen.According to a further advantageous embodiment, a measure of the agreement between the ideal bounding box and the application-related bounding box is determined by comparing the common areas of the ideal bounding box and the application-related bounding box or the differing area between the ideal bounding box and the application-related bounding box.
Gemäß dieser Ausführungsform erfolgt vorteilhaft ein flächenbezogener Vergleich zwischen dem idealen und dem anwendungsbezogenen Begrenzungsrahmen. Bevorzugt je größer der überlappende Bereich im Vergleich zum nicht überlappenden Bereich ist, umso höher wird das Maß für die Übereinstimmung ermittelt.According to this embodiment, an area-related comparison between the ideal and the application-related bounding frame is advantageously carried out. Preferably, the larger the overlapping area is compared to the non-overlapping area, the higher the degree of agreement is determined.
Gemäß einer weiteren vorteilhaften Ausführungsform werden mehrere anwendungsbezogene Begrenzungsrahmen je Objekt des Testbildes ermittelt und derjenige anwendungsbezogene Begrenzungsrahmen mit der größten Übereinstimmung mit dem idealen Begrenzungsrahmen je Objekt zur Ermittlung des zusätzlichen Qualitätsterms ausgewählt.According to a further advantageous embodiment, several application-related bounding boxes are determined per object of the test image and the application-related bounding box with the greatest correspondence to the ideal bounding box per object is selected to determine the additional quality term.
Mehrere anwendungsbezogene Begrenzungsrahmen je Objekt des Testbildes können bei der Anwendung des eingangs erwähnten erweiterten, interpretierbaren, künstlichen neuronalen Netzes erhalten werden. Ist dies der Fall, so wird gemäß dieser Ausführungsform zuerst eine Auswahl des am besten passenden anwendungsbezogenen Begrenzungsrahmens zum idealen Begrenzungsrahmen bezüglich ihrer überlappenden Flächen vorgenommen und der zusätzliche Qualitätsterm lediglich abhängig von dem ausgewählten anwendungsbezogene Begrenzungsrahmen ermittelt.Several application-related bounding boxes per object of the test image can be obtained when using the extended, interpretable, artificial neural network mentioned at the beginning. If this is the case, according to this embodiment, a selection of the most suitable application-related one is first made Bounding frame to the ideal bounding box with respect to their overlapping surfaces and the additional quality term is determined only depending on the selected application-related bounding box.
Gemäß einer weiteren vorteilhaften Ausführungsform werden für das Zuordnen der latenten Repräsentationen zu jeweiligen Konzepten alle Pixel des Testbildes berücksichtigt.According to a further advantageous embodiment, all pixels of the test image are taken into account for assigning the latent representations to respective concepts.
Gemäß einer weiteren vorteilhaften Ausführungsform werden sowohl eine jeweilige latente Repräsentation als auch das jeweilige Konzept in Vektorform verwendet, wobei eine jeweilige der Distanzen zwischen den einem jeweiligen Konzept zugeordneten latenten Repräsentationen und dem jeweiligen Konzept durch einen skalaren Wert angegeben wird. Beispielsweise weist ein jeweiliger solcher Vektor 128 Einträge auf, während beispielsweise sechs prinzipiell verschiedene Konzepte verwendet werden.According to a further advantageous embodiment, both a respective latent representation and the respective concept are used in vector form, with each of the distances between the latent representations assigned to a respective concept and the respective concept being specified by a scalar value. For example, each such vector has 128 entries, while, for example, six fundamentally different concepts are used.
Gemäß einer weiteren vorteilhaften Ausführungsform umfasst das Testbild einen Fußgänger als ein Objekt, wobei die Konzepte Körperzonen des Fußgängers entsprechen.According to a further advantageous embodiment, the test image comprises a pedestrian as an object, the concepts corresponding to body zones of the pedestrian.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt das Zuordnen einer jeweiligen latenten Repräsentation zu demjenigen der Konzepte mit der kürzesten Distanz nur dann, wenn die kürzeste Distanz unter allen Distanzen zu den Konzepten einen vorgegebenen vierten Grenzwert unterschreitet.According to a further advantageous embodiment, a respective latent representation is assigned to that of the concepts with the shortest distance only if the shortest distance among all distances to the concepts falls below a predetermined fourth limit value.
Weitere Vorteile, Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen.Further advantages, features and details emerge from the following description, in which at least one exemplary embodiment is described in detail - if necessary with reference to the drawing. Identical, similar and/or functionally identical parts are provided with the same reference numerals.
Es zeigen:
-
1 : Eine typische Situation, für die das zu testende bzw. zu validierende künstliche neuronale Netz in der Anwendung an einem automatisierten Fahrzeug verwendet wird. -
2 : Ein Verfahren zum Testen und/oder Validieren eines trainierten künstlichen neuronalen Netzes für die Erkennung einer Objektkategorie eines Objekts in Bilddaten gemäß einem Ausführungsbeispiel der Erfindung. -
3 : Ein zweistufiges Einteilungsverfahren zur Ermittlung einer Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz gemäß einem Ausführungsbeispiel der Erfindung. -
4 : Eine Ermittlung einer Übereinstimmung zwischen einem idealen und einem anwendungsbezogenen Begrenzungsrahmen gemäß einem Ausführungsbeispiel der Erfindung. -
5 : Ein Verfahren zum Testen und/oder Validieren eines trainierten künstlichen neuronalen Netzes für die Erkennung einer Objektkategorie eines Objekts in Bilddaten gemäß einem weiteren Ausführungsbeispiel der Erfindung.
-
1 : A typical situation for which the artificial neural network to be tested or validated is used in an application on an automated vehicle. -
2 : A method for testing and/or validating a trained artificial neural network for recognizing an object category of an object in image data according to an exemplary embodiment of the invention. -
3 : A two-stage classification method for determining the quality of recognition of an object category by the artificial neural network according to an exemplary embodiment of the invention. -
4 : A determination of a match between an ideal and an application-related bounding box according to an embodiment of the invention. -
5 : A method for testing and/or validating a trained artificial neural network for recognizing an object category of an object in image data according to a further exemplary embodiment of the invention.
Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.The representations in the figures are schematic and not to scale.
Zum besseren Verständnis ist in der
- - Bereitstellen S1 eines Testbildes mit Informationen über mindestens ein Objekt aus einer von vorgegebenen Objektkategorien, die möglichen Ausgangsgrößen des künstlichen neuronalen Netzes entsprechen,
- - Bereitstellen S2 von auf das Testbild bezogenen Konzepten, wobei ein jeweiliges Konzept vorab, insbesondere für das Training des künstlichen neuronalen Netzes, als Teilelement eines jeweiligen Objekts aus den vorgegebenen Objektkategorien definiert wurde,
- - Auslesen S3 von latenten Repräsentationen aus einer inneren Ebene des künstlichen neuronalen Netzes nach Verwendung des Testbildes für die Eingangsdaten des künstlichen neuronalen Netzes,
- - Ermitteln S4 von jeweiligen Distanzen zwischen einer jeweiligen latenten Repräsentation und allen Konzepten, und Zuordnen der jeweiligen latenten Repräsentation zu demjenigen der Konzepte mit der kürzesten Distanz,
- - Für jedes der Konzepte: Ermitteln S5 eines Mittelwerts der jeweiligen Distanzen zwischen den dem jeweiligen Konzept zugeordneten latenten Repräsentationen und dem jeweiligen Konzept, und
- - Ermitteln S6 einer Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz durch einen für jedes der Konzepte ausgeführten jeweiligen Vergleich i der Zahl der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit einem ersten vorgegebenen Grenzwert und ii des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit einem zweiten vorgegebenen Grenzwert.
- - Providing S1 a test image with information about at least one object from one of predetermined object categories, which correspond to possible output variables of the artificial neural network,
- - Providing S2 of concepts related to the test image, whereby a respective concept was defined in advance, in particular for training the artificial neural network, as a sub-element of a respective object from the predetermined object categories,
- - reading out S3 of latent representations from an inner level of the artificial neural network after using the test image for the input data of the artificial neural network,
- - Determining S4 of respective distances between a respective latent representation and all concepts, and assigning the respective latent representation to that of the concepts with the shortest distance,
- - For each of the concepts: Determine S5 an average of the respective distances between the latent representations assigned to the respective concept and the respective concept, and
- - Determining S6 a quality of recognition of an object category by the artificial neural network by comparing i the number of latent representations assigned to the respective concept with a first predetermined limit value and ii the mean value of the respective distances associated with the respective concept, carried out for each of the concepts a second predetermined limit value.
- - „loU“ ein flächiges Maß für die Übereinstimmung zwischen
dem idealen Begrenzungsrahmen 1 unddem anwendungsbezogenen Begrenzungsrahmen 2 im Sinne der bekannten „Intersection over Union“, angegeben in Prozent als Maß für die flächige Übereinstimmung; - - „IoU_S“ den dritten vorgegebenen Grenzwert;
- - „n_K“ die Zahl der einem jeweiligen Konzept zugeordneten latenten Repräsentationen;
- - „n_K1“ den ersten Grenzwert;
- - „n_K2“ einen fünften Grenzwert;
- - „d_crit“ den zweiten Grenzwert;
- - „d_SM“ einen sechsten Grenzwert;
- - „NOK“ Kategorie „fehlerhaft-erkannt oder nicht-erkannt“;
- - „OK“ Kategorie „vollständig erkannt“;
- - „OK+“ und „OK-“ Annäherungen der Qualität an die Kategorie „vollständig erkannt“ („OK“) in besser („OK+“) und schlechter („OK-“);
- - (A) und (B) jeweilige Stufen der Bestimmung der Güte der Erkennung einer Objektkategorie durch das künstliche neuronale Netz;
- - “loU” is an areal measure of the agreement between the
ideal bounding box 1 and the application-relatedbounding box 2 in the sense of the well-known “Intersection over Union”, given in percent as a measure of the areal agreement; - - “IoU_S” the third specified limit value;
- - “n_K” is the number of latent representations assigned to a respective concept;
- - “n_K1” the first limit value;
- - “n_K2” a fifth limit value;
- - “d_crit” the second limit value;
- - “d_SM” a sixth limit value;
- - “NOK” category “incorrectly recognized or not recognized”;
- - “OK” category “fully recognized”;
- - “OK+” and “OK-” approximations of the quality to the “fully detected” (“OK”) category in better (“OK+”) and worse (“OK-”);
- - (A) and (B) respective stages of determining the quality of recognition of an object category by the artificial neural network;
Somit wird vorteilhaft die Güte in vorgegebene Kategorien eingeteilt. In der ersten Stufe (A) wird der Vergleich i) durchgeführt, das heißt die Zahl „n_K“ der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit dem ersten vorgegebenen Grenzwert „n_K1“ verglichen. Ist die Zahl größer als der erste Grenzwert „n_K1“ und das flächige Maß für die Übereinstimmung zwischen dem idealen Begrenzungsrahmen 1 und dem anwendungsbezogenen Begrenzungsrahmen 2 größer als der dritte Grenzwert „loU_S“, wird mit Schritt (B) fortgefahren. Das heißt, nur bei Überschreiten des ersten vorgegebenen Grenzwerts als Ergebnis des Vergleichs i) und bei Überschreiten des Maßes für die Übereinstimmung zwischen dem idealen Begrenzungsrahmen 1 und dem anwendungsbezogenen Begrenzungsrahmen 2 über den dritten vorgegebenen Grenzwert wird überhaupt erst der Vergleich ii) in Schritt (B) ausgeführt, nämlich der Vergleich des zum jeweiligen Konzept zugehörigen Mittelwerts der jeweiligen Distanzen mit dem zweiten vorgegebenen Grenzwert „d_crit“. In Schritt (B) kann wiederum ein Vergleich mit der Zahl „n_K“ der dem jeweiligen Konzept zugeordneten latenten Repräsentationen mit dem ersten vorgegebenen Grenzwert „n_K1“ erfolgen, wenn nicht schon erfolgt. Konzepte, für die der erste vorgegebene Grenzwert „n_K1“ sowie der zweite vorgegebene Grenzwert „d_crit“ überschritten werden, werden in die Kategorie „OK“ eingestuft. Alle Konzepte mit dem unterschrittenen Grenzwert „n_K1“ in die Kategorie „NOK“. Der verbleibende Bereich wird durch den fünften Grenzwert „n_K2“ bzgl. der Zahl „n_K“ der dem jeweiligen Konzept zugeordneten latenten Repräsentationen und den sechsten Grenzwert „d_SM“ bzgl. der mittleren Distanz der dem jeweiligen Konzept zugeordneten latenten Repräsentationen in die weiteren Kategorien „OK+“ und „OK-“ eingeteilt;The quality is thus advantageously divided into predetermined categories. In the first stage (A), comparison i) is carried out, i.e. the number “n_K” of latent representations assigned to the respective concept is compared with the first predetermined limit value “n_K1”. If the number is greater than the first limit value "n_K1" and the areal measure of the agreement between the
- - Bereitstellen S7 eines idealen Begrenzungsrahmens 1 für ein jeweiliges Objekt des Testbildes ohne die Anwendung des künstlichen neuronalen Netzes,
- - Ermitteln S8 eines anwendungsbezogenen Begrenzungsrahmens 2 für ein jeweiliges Objekt des Testbildes durch Anwendung des künstlichen neuronalen Netzes mit dem Testbild für die Eingangsdaten des künstlichen neuronalen Netzes, wobei ein jeweiliger idealer Begrenzungsrahmen 1 und ein jeweiliger anwendungsbezogener Begrenzungsrahmen 2 jeweils einen geometrischen Bereich des Testbildes mit dem jeweiligen Objekt eingrenzen, und
- - Ermitteln S9 eines Maßes für die Übereinstimmung zwischen
dem idealen Begrenzungsrahmen 1 unddem anwendungsbezogenen Begrenzungsrahmen 2 als zusätzlichen Qualitätsterm für die Güte der Erkennung der Objektkategorie durch das künstliche neuronale Netz.
- - Providing S7 an
ideal bounding box 1 for a respective object of the test image without using the artificial neural network, - - Determining S8 of an application-related
bounding frame 2 for a respective object of the test image by using the artificial neural network with the test image for the input data of the artificial neural network, wherein a respectiveideal bounding frame 1 and a respective application-relatedbounding frame 2 each have a geometric area of the test image with the limit the respective object, and - - Determine S9 a measure of the agreement between the
ideal bounding box 1 and the application-relatedbounding box 2 as an additional quality term for the quality of the recognition of the object category by the artificial neural network.
Im Sinne des zweistufigen Testverfahrens für die Güte der Erkennung erfolgt jedoch das Zuordnen einer jeweiligen latenten Repräsentation zu demjenigen der Konzepte mit der kürzesten Distanz nur dann, wenn die kürzeste Distanz unter allen Distanzen zu den Konzepten einen vorgegebenen vierten Grenzwert unterschreitet - für Details siehe
Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen, beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente, vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehende Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in detail by preferred embodiments, the invention is not limited by the examples disclosed and other variations may be derived therefrom by those skilled in the art without departing from the scope of the invention. It is therefore clear that a large number of possible variations exist. It is also to be understood that exemplary embodiments are truly examples only and should not be construed in any way as limiting the scope, application, or configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to concretely implement the exemplary embodiments, whereby the person skilled in the art can make a variety of changes with knowledge of the disclosed inventive concept, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without departing from the scope of protection defined by the claims and their legal equivalents, such as further explanations in the description.
BezugszeichenlisteReference symbol list
- 11
- idealer Begrenzungsrahmenideal bounding box
- 22
- anwendungsbezogener Begrenzungsrahmen application-related bounding box
- FF
- Fahrzeugvehicle
- CC
- Kameracamera
- NNNN
- Recheneinheit mit implementiertem künstlichen neuronalen Netz Computing unit with implemented artificial neural network
- S1S1
- BereitstellenProvide
- S2S2
- BereitstellenProvide
- S3S3
- AuslesenRead out
- S4S4
- ErmittelnDetermine
- S5S5
- ErmittelnDetermine
- S6S6
- ErmittelnDetermine
- S7S7
- BereitstellenProvide
- S8S8
- ErmittelnDetermine
- S9S9
- ErmittelnDetermine
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022204364.2A DE102022204364A1 (en) | 2022-05-03 | 2022-05-03 | Quality determination of object recognition by a neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022204364.2A DE102022204364A1 (en) | 2022-05-03 | 2022-05-03 | Quality determination of object recognition by a neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102022204364A1 true DE102022204364A1 (en) | 2023-11-09 |
Family
ID=88414390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102022204364.2A Pending DE102022204364A1 (en) | 2022-05-03 | 2022-05-03 | Quality determination of object recognition by a neural network |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102022204364A1 (en) |
-
2022
- 2022-05-03 DE DE102022204364.2A patent/DE102022204364A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018128289A1 (en) | METHOD AND DEVICE FOR AUTONOMOUS SYSTEM PERFORMANCE AND CLASSIFICATION | |
EP3393875B1 (en) | Method for the improved detection of objects by a driver assistance system | |
DE102010013943A1 (en) | Method and device for a functional test of an object recognition device of a motor vehicle | |
DE102020126732A1 (en) | Systems and methods for diagnosing vehicle perception systems based on the temporal continuity of sensor data | |
DE102019204139A1 (en) | Training for artificial neural networks with better utilization of the learning data sets | |
DE112017008149T5 (en) | DEVICE FOR COMMUNICATION FROM A VEHICLE, METHOD FOR COMMUNICATING A VEHICLE OUTSIDE, INFORMATION PROCESSING DEVICE AND PROGRAM FOR COMMUNICATION FROM A VEHICLE | |
WO2018077745A1 (en) | Method for analysing object labels in images on the basis of models | |
DE102020131657A1 (en) | Diagnosing a perceptual system based on scene continuity | |
WO2019119011A1 (en) | Behaviour model of an environment sensor | |
EP3983936A1 (en) | Method and generator for generating disturbed input data for a neural network | |
EP3966743A1 (en) | Monitoring of an ai module of a vehicle driving function | |
DE102021207613A1 (en) | Process for quality assurance of a system | |
DE102019208735B4 (en) | Method for operating a driver assistance system for a vehicle and a driver assistance system for a vehicle | |
WO2020200620A1 (en) | Masking of objects contained in an image | |
DE102022204364A1 (en) | Quality determination of object recognition by a neural network | |
DE102019209463A1 (en) | Method for determining the trust value of an object of a class | |
DE102022204618A1 (en) | Effective quality determination of object recognition by a neural network | |
DE102021204040A1 (en) | Method, device and computer program for creating training data in the vehicle | |
DE102021201698A1 (en) | Method for evaluating a known route and electronic computing device | |
DE102018205146A1 (en) | Test method for high-resolution headlamps using AI | |
DE102022213064A1 (en) | Detection of unknown objects using neural networks for vehicles | |
DE102022204623A1 (en) | Object recognition by neural network with uncertainty measure | |
DE102020204758A1 (en) | Fast symmetry detection for the classification of objects from digital images | |
EP4296970A1 (en) | Computer-implemented method and system for creating a virtual vehicle environment | |
DE102021212731A1 (en) | REVIEWING TESTING AND/OR TRAINING RECORDS FOR A COMPUTER-BASED MACHINE LEARNING MODULE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R084 | Declaration of willingness to licence | ||
R081 | Change of applicant/patentee |
Owner name: STELLANTIS AUTO SAS, FR Free format text: FORMER OWNER: PSA AUTOMOBILES SA, POISSY, FR |