DE102021214465A1 - Analysis of the behavior of image classifiers - Google Patents

Analysis of the behavior of image classifiers Download PDF

Info

Publication number
DE102021214465A1
DE102021214465A1 DE102021214465.9A DE102021214465A DE102021214465A1 DE 102021214465 A1 DE102021214465 A1 DE 102021214465A1 DE 102021214465 A DE102021214465 A DE 102021214465A DE 102021214465 A1 DE102021214465 A1 DE 102021214465A1
Authority
DE
Germany
Prior art keywords
image
representation
modifications
modification
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021214465.9A
Other languages
German (de)
Inventor
Andres Mauricio Munoz Delgado
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021214465.9A priority Critical patent/DE102021214465A1/en
Publication of DE102021214465A1 publication Critical patent/DE102021214465A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Abstract

Verfahren (100) zur Untersuchung des Verhaltens eines Bildklassifikators (1), der ein Eingabe-Bild (2) einer oder mehreren Klassen einer vorgegebenen Klassifikation zuordnet, mit den Schritten:• das Eingabe-Bild (2) wird mit einem Encoder (3a) einer trainierten Encoder-Decoder-Anordnung (3) auf eine Eingabe-Repräsentation (4) abgebildet (110);• es werden Repräsentations-Abwandlungen (4') dieser Eingabe-Repräsentation (4) ermittelt (120);• diese Repräsentations-Abwandlungen (4') werden mit dem Decoder (3b) der Encoder-Decoder-Anordnung (3) auf Bild-Abwandlungen (2') des Eingabe-Bildes (2) abgebildet (130);• jede Bild-Abwandlung (2') wird mit einer vorgegebenen Kostenfunktion (5) aus mehreren Beiträgen (141, 142, 143) bewertet (140);• nach einem vorgegebenen Kriterium, das von der Bewertung (5a) durch die Kostenfunktion (5) abhängt, werden entscheidungsrelevante Bild-Abwandlungen (2*) ausgewählt (150).Method (100) for examining the behavior of an image classifier (1), which assigns an input image (2) to one or more classes of a specified classification, with the steps: • the input image (2) is scanned with an encoder (3a) a trained encoder-decoder arrangement (3) onto an input representation (4) (110);• representation modifications (4') of this input representation (4) are determined (120);• these representation modifications (4') are mapped (130) to image modifications (2') of the input image (2) with the decoder (3b) of the encoder-decoder arrangement (3);• each image modification (2') is evaluated (140) with a predetermined cost function (5) from a number of contributions (141, 142, 143); • according to a predetermined criterion, which depends on the evaluation (5a) by the cost function (5), decision-relevant image modifications (2nd *) selected (150).

Description

Die vorliegende Erfindung betrifft die Analyse des Verhaltens von Bildklassifikatoren, die beispielsweise für die Qualitätskontrolle im Rahmen der Serienfertigung von Produkten verwendet werden können.The present invention relates to the analysis of the behavior of image classifiers that can be used, for example, for quality control in the context of series production of products.

Stand der TechnikState of the art

Bei der Serienfertigung von Produkten ist es in der Regel erforderlich, die Qualität der Fertigung laufend zu überprüfen. Dabei wird angestrebt, Qualitätsprobleme möglichst schnell zu erkennen, um die Ursache baldmöglichst beheben zu können und nicht zu viele Einheiten des jeweiligen Produkts als Ausschuss zu verlieren.In the series production of products, it is usually necessary to continuously check the quality of the production. The aim is to identify quality problems as quickly as possible in order to be able to remedy the cause as soon as possible and not lose too many units of the respective product as scrap.

Die optische Kontrolle der Geometrie und/oder Oberfläche eines Produkts ist schnell und zerstörungsfrei. Die WO 2018/197 074 A1 offenbart eine Prüfvorrichtung, in der ein Objekt einer Vielzahl von Beleuchtungssituationen ausgesetzt werden kann, wobei in jeder dieser Beleuchtungssituationen mit einer Kamera Bilder des Objekts aufgezeichnet werden. Aus diesen Bildern wird die Topographie des Objekts ausgewertet.Optical inspection of a product's geometry and/or surface is fast and non-destructive. The WO 2018/197 074 A1 discloses an inspection apparatus in which an object can be exposed to a plurality of lighting situations, images of the object being recorded with a camera in each of these lighting situations. The topography of the object is evaluated from these images.

Bilder des Produkts können auch unmittelbar mit einem Bildklassifikator auf der Basis künstlicher neuronaler Netzwerke einer von mehreren Klassen einer vorgegebenen Klassifikation zugeordnet werden. Auf dieser Basis kann das Produkt einer von mehreren vorgegebenen Qualitätsklassen zugeordnet werden. Im einfachsten Fall ist diese Klassifikation binär („OK“ / „nicht OK“).Images of the product can also be directly assigned to one of several classes of a given classification using an image classifier based on artificial neural networks. On this basis, the product can be assigned to one of several specified quality classes. In the simplest case, this classification is binary ("OK" / "not OK").

Offenbarung der ErfindungDisclosure of Invention

Die Erfindung stellt ein Verfahren zur Untersuchung des Verhaltens eines Bildklassifikators bereit. Der Bildklassifikator ordnet ein Eingabe-Bild einer oder mehreren Klassen einer vorgegebenen Klassifikation zu.The invention provides a method for examining the behavior of an image classifier. The image classifier assigns an input image to one or more classes of a given classification.

Im Rahmen dieses Verfahrens wird das Eingabe-Bild mit einem Encoder einer trainierten Encoder-Decoder-Anordnung auf eine Eingabe-Repräsentation abgebildet. Es werden Repräsentations-Abwandlungen dieser Eingabe-Repräsentation ermittelt. Diese Repräsentations-Abwandlungen werden mit dem Decoder der Encoder-Decoder-Anordnung auf Bild-Abwandlungen des Eingabe-Bildes abgebildet.As part of this method, the input image is mapped to an input representation using an encoder of a trained encoder-decoder arrangement. Representation modifications of this input representation are determined. These representation modifications are mapped to image modifications of the input image with the decoder of the encoder-decoder arrangement.

Die Bild-Abwandlungen werden mit einer vorgegebenen Kostenfunktion bewertet. Nach einem vorgegebenen Kriterium werden entscheidungsrelevante Bild-Abwandlungen ausgewählt. Das vorgegebene Kriterium hängt von der Bewertung durch die Kostenfunktion ab.The image modifications are evaluated using a predetermined cost function. Decision-relevant image modifications are selected according to a predetermined criterion. The predetermined criterion depends on the evaluation by the cost function.

Die entscheidungsrelevanten Bild-Abwandlungen enthalten die gesuchte Information über das Verhalten des Bildklassifikators. Hiermit kann auch ohne Bezug zu konkreten räumlich definierten Bildanteilen untersucht werden, welche Veränderungen des Eingabe-Bildes den Bildklassifikator in seiner Entscheidung sicherer oder unsicherer machen. Beispielsweise kann eine Aussage dahingehend gewonnen werden, wie stark sich die Unsicherheit der Entscheidung des Bildklassifikators bei globalen Änderungen von Farbe, Kontrast und anderen Bildeigenschaften ändert. Eine derartige Aussage bezieht sich dann auf den Bildklassifikator als solchen und ist nur an diesen konkreten Bildklassifikator gebunden, nicht jedoch an ein konkretes Eingabe-Bild.The decision-relevant image modifications contain the information sought about the behavior of the image classifier. With this, it is possible to examine which changes in the input image make the image classifier more or less certain in its decision, even without reference to concrete spatially defined image parts. For example, a statement can be obtained as to how much the uncertainty of the image classifier's decision changes in the event of global changes in color, contrast and other image properties. Such a statement then relates to the image classifier as such and is only linked to this specific image classifier, but not to a specific input image.

In einer besonders vorteilhaften Ausgestaltung werden aus den ausgewählten entscheidungsrelevanten Bild-Abwandlungen Bildanteile, auf die der Bildklassifikator seine Entscheidung stützt, ausgewertet. Zu diesem Zweck kann beispielsweise eine Differenz zwischen dem Eingabe-Bild einerseits und einer oder mehreren entscheidungsrelevanten Bild-Abwandlungen andererseits ausgewertet werden. In konkreten Anwendungen ist vielfach danach gefragt, inwieweit der Bildklassifikator für seine Entscheidung genau diejenigen Bildbereiche heranzieht, in denen auch die für die jeweilige Anwendung relevante Information stecken sollte. Wenn beispielsweise ein Gesicht in einem Porträtfoto nach bestimmten Aspekten klassifiziert werden soll, sollte der Bildklassifikator seine Entscheidung idealerweise nur auf das Gesicht selbst stützen, nicht jedoch auf den Bildhintergrund.In a particularly advantageous embodiment, image components on which the image classifier bases its decision are evaluated from the selected, decision-relevant image modifications. For this purpose, for example, a difference between the input image on the one hand and one or more decision-relevant image modifications on the other hand can be evaluated. In concrete applications, it is often asked to what extent the image classifier uses precisely those image areas for its decision, in which the information relevant for the respective application should also be found. For example, if a face in a portrait photograph is to be classified based on certain aspects, the image classifier should ideally base its decision only on the face itself, and not on the background of the image.

Es werden also diejenigen Bild-Abwandlungen gesucht, für die die Bewertung durch die Kostenfunktion in Verbindung mit dem vorgegebenen Kriterium anzeigt, dass diese Abwandlungen entscheidungsrelevant für den Bildklassifikator sind. Diese Suche wird aber nicht direkt im Raum der Bild-Abwandlungen gesucht, sondern im Raum der Repräsentations-Abwandlungen.A search is therefore made for those image modifications for which the evaluation by the cost function in connection with the specified criterion indicates that these modifications are relevant to the decision of the image classifier. However, this search is not sought directly in the space of image modifications, but in the space of representational modifications.

Der Sinn dieses „Umwegs“ ist, dass es bei einer direkten Veränderung des Eingabe-Bildes schwierig zu gewährleisten ist, dass das Eingabe-Bild nach wie vor einer gewünschten Verteilung angehört. Beispielsweise kann gewünscht sein, dass die Bild-Abwandlungen genauso „realistisch aussieht“. Diese Anforderung lässt sich sehr gut abbilden und quantifizieren, indem eine Encoder-Decoder-Anordnung auf Trainingsbildern aus der gewünschten Verteilung von beispielsweise „realistischen“ Bildern darauf trainiert wird, die Trainingsbilder mit dem Encoder auf Repräsentationen abzubilden und hieraus anschließend mit dem Decoder das jeweilige Trainingsbild wieder zu rekonstruieren. Die hierbei genutzten Repräsentationen können insbesondere beispielsweise gegenüber den Trainingsbildern in ihrer Dimensionalität deutlich reduziert sein. Die Encoder-Decoder-Anordnung lernt dann, die für die Rekonstruktion wichtigsten Informationen in der Repräsentation unterzubringen und gleichzeitig die geringe in der Repräsentation enthaltene Informationsmenge bestmöglich auszuwerten. Wenn nun Repräsentations-Abwandlungen gebildet und zu Bild-Abwandlungen des Eingabe-Bildes zurückübersetzt werden, ist auf Grund des Trainings des Decoders gewährleistet, dass die Bild-Abwandlung der gleichen Verteilung angehört wie das ursprüngliche Eingabe-Bild.The point of this "detour" is that if the input image is changed directly, it is difficult to ensure that the input image still belongs to a desired distribution. For example, you may want the image modifications to "look realistic" just as much. This requirement can be mapped and quantified very well by training an encoder-decoder arrangement on training images from the desired distribution of, for example, "realistic" images to map the training images to representations with the encoder and then use the decoder to map the training images to representations to reconstruct the respective training image. The representations used here can be significantly reduced in their dimensionality, for example compared to the training images. The encoder-decoder arrangement then learns to accommodate the most important information for the reconstruction in the representation and at the same time to evaluate the small amount of information contained in the representation in the best possible way. If now representation modifications are formed and translated back to image modifications of the input image, the training of the decoder ensures that the image modification belongs to the same distribution as the original input image.

Die Kostenfunktion enthält mehrere Beiträge, die in beliebiger Weise, etwa additiv und/oder multiplikativ, miteinander kombiniert und hierbei untereinander gewichtet sein können.The cost function contains a number of contributions which can be combined with one another in any way, for example additively and/or multiplicatively, and which can be weighted among one another.

Der Wert der Kostenfunktion wird umso besser, je besser der Wert einer vorgegebenen Task-Kostenfunktion ist, die von einem durch den Bildklassifikator aus der Bild-Abwandlung ermittelten Verarbeitungsergebnis abhängt. Wenn also die Bild-Abwandlung gegenüber dem Eingabe-Bild derart verändert ist, dass der Bildklassifikator diese Bild-Abwandlung in irgendeiner Form besser verarbeiten kann als das ursprüngliche Eingabe-Bild, folgt hieraus, dass die Veränderung für die Entscheidung des Bildklassifikators relevant ist.The value of the cost function becomes the better, the better the value of a given task cost function which depends on a processing result determined by the image classifier from the image modification. So if the image modification is changed from the input image in such a way that the image classifier can in some way process this image modification better than the original input image, it follows that the change is relevant to the image classifier's decision.

Zu diesem Zweck kann die Task-Kostenfunktion beispielsweise eine mit einer vorgegebenen Unsicherheitsmetrik gemessene Unsicherheit, mit der der Bildklassifikator die Bild-Abwandlung einer oder mehreren Klassen der vorgegebenen Klassifikation zuordnet, beinhalten. Wenn beispielsweise die Veränderung der Bild-Abwandlung dazu führt, dass ein für den Bildklassifikator wichtiges Merkmal des Eingabe-Bildes besser zu erkennen ist, nimmt die Unsicherheit, mit der der Bildklassifikator seine Entscheidung trifft, ab.For this purpose, the task cost function can contain, for example, an uncertainty measured with a predefined uncertainty metric, with which the image classifier assigns the image modification to one or more classes of the predefined classification. For example, if the change in image morph leads to a better recognition of a feature of the input image that is important for the image classifier, the uncertainty with which the image classifier makes its decision decreases.

Alternativ oder auch in Kombination hierzu kann die Task-Kostenfunktion auch beispielsweise einen oder mehrere Klassifikations-Scores in Bezug auf Klassen der vorgegebenen Klassifikation, die der Bildklassifikator für die Bild-Abwandlung ermittelt, beinhalten. Auch in diesen Klassifikations-Scores kann es sich widerspiegeln, wie gut oder wie schlecht bestimmte Merkmale in der Bild-Abwandlung zu erkennen sind.Alternatively or in combination with this, the task cost function can also contain, for example, one or more classification scores in relation to classes of the specified classification that the image classifier determines for the image modification. It can also be reflected in these classification scores how well or how poorly certain features can be recognized in the image modification.

Besonders vorteilhaft werden nur solche Bild-Abwandlungen berücksichtigt, für die ein höchster durch den Bildklassifikator ermittelter Klassifikations-Score sich auf die gleiche Klasse bezieht wie der höchste durch den Bildklassifikator für das Eingabe-Bild ermittelte Klassifikations-Score. Es werden also solche Änderungen des Eingabe-Bildes gesucht, die das Eingabe-Bild nicht so stark abändern, dass es in eine andere Klasse wechselt. Dadurch werden die letztendlich als entscheidungsrelevant ausgewählten Bild-Abwandlungen in Bezug auf den Bildklassifikator aussagekräftiger. Es geht gerade darum, das Verhalten des Bildklassifikators in dem durch das Eingabe-Bild festgelegten Arbeitspunkt zu untersuchen und zu ermitteln, inwieweit auch kleine Änderungen am Eingabe-Bild einen spürbaren Effekt auf die Ausgabe des Bildklassifikators haben. Particularly advantageously, only those image modifications are taken into account for which a highest classification score determined by the image classifier relates to the same class as the highest classification score determined by the image classifier for the input image. Changes to the input image that do not change the input image so much that it changes to a different class are searched for. As a result, the image modifications ultimately selected as relevant to the decision become more meaningful in relation to the image classifier. It's all about examining the behavior of the image classifier in the working point defined by the input image and to determine to what extent even small changes to the input image have a noticeable effect on the output of the image classifier.

Diesem Zweck dient auch, dass der Wert der Kostenfunktion umso besser wird, je geringer eine mit einer vorgegebenen Distanzmetrik gemessene Distanz zwischen dieser Bild-Abwandlung und dem Eingabe-Bild ist. Dass mit einer drastischen Änderung des Eingabe-Bildes eine ebenso drastische Änderung des Verhaltens des Bildklassifikators erzielt werden kann, ist zu erwarten. Wenn aber bereits eine kleine Veränderung des Eingabe-Bildes die Ausgabe des Bildklassifikators deutlich ändert, zeigt dies, dass der Bildklassifikator in Bezug auf diese Veränderung besonders sensitiv ist.Also serving this purpose is that the smaller a distance, measured with a given distance metric, between this image modification and the input image, the better the value of the cost function. It is to be expected that with a drastic change in the input image, an equally drastic change in the behavior of the image classifier can be achieved. However, if even a small change in the input image significantly changes the output of the image classifier, this shows that the image classifier is particularly sensitive to this change.

Hierbei kann die Distanz beispielsweise eine Komponente beinhalten, die das Eingabe-Bild direkt mit der Bild-Abwandlung vergleicht und vom Ergebnis dieses Vergleichs abhängt. Alternativ oder auch in Kombination hierzu kann die Distanz beispielsweise eine Komponente beinhalten, die für das Eingabe-Bild einerseits und für die Bild-Abwandlung andererseits durch den Bildklassifikator ermittelte Klassifikations-Scores miteinander vergleicht und vom Ergebnis dieses Vergleichs abhängt. Insbesondere mit der letzteren Komponente der Distanz kann die Suche nach Bild-Abwandlungen auf solche Bild-Abwandlungen fokussiert werden, die die Unsicherheit der vom Bildklassifikator getroffenen Klassen-Zuordnungen verändern, jedoch diese Klassen-Zuordnungen im Wesentlichen unverändert lassen.Here, for example, the distance can include a component that directly compares the input image with the image modification and depends on the result of this comparison. Alternatively or in combination with this, the distance can contain a component, for example, which compares classification scores determined by the image classifier for the input image on the one hand and for the image modification on the other hand and depends on the result of this comparison. In particular, with the latter component of distance, the search for image modifications can be focused on those image modifications that change the uncertainty of the class assignments made by the image classifier, but leave those class assignments essentially unchanged.

Weiterhin wird der Wert der Kostenfunktion umso besser, je größer mit einer vorgegebenen Distanzmetrik gemessene Distanzen zwischen der Repräsentations-Abwandlung, auf die diese Bild-Abwandlung zurückgeht, und weiteren Repräsentations-Abwandlungen sind. Dieser Beitrag bewirkt in besonderem Maße, dass die als entscheidungsrelevant ausgewählten Bild-Abwandlungen verschiedene Aspekte des Eingabe-Bildes abdecken, statt alle auf einen einzelnen solchen Aspekt fokussiert zu sein. Zu diesem Zweck wird gemessen, wie gut dasjenige Gebiet im Raum der Repräsentationen, in dem nach Repräsentations-Abwandlungen gesucht wird, von den verwendeten Repräsentations-Abwandlungen abgedeckt ist.Furthermore, the value of the cost function becomes better the larger the distances between the representation modification, on which this image modification is based, and further representation modifications, measured with a predetermined distance metric, are. In particular, this contribution ensures that the image modifications selected as decision-relevant cover different aspects of the input image instead of all being focused on a single such aspect. For this purpose, it is measured how well the area in the representation space in which representation modifications are searched for is covered by the representation modifications used.

Dies ist in etwa vergleichbar damit, dass ein potentieller Käufer einer Immobilie wahrscheinlich skeptisch ist, wenn ihm ausschließlich Fotos aus dem Wohnzimmer dieser Immobilie präsentiert werden. Der Verdacht liegt dann nahe, dass nur dieses Wohnzimmer besonders renoviert und herausgeputzt wurde, während der Rest der Immobilie deutlich zu wünschen übrig lässt. Wesentlich vertrauenserweckender ist es, wenn der Käufer Fotos aus allen Bereichen der Immobilie präsentiert bekommt.This is roughly comparable to the fact that a potential buyer of a property is likely to be skeptical if he is only presented with photos from the living room of that property. The suspicion then arises that only this living room has been particularly renovated and spruced up, while the rest of the property clearly leaves a lot to be desired. It is much more confidence-inspiring if the buyer is presented with photos from all areas of the property.

Die Distanzmetrik kann beispielsweise paarweise Distanzen zwischen der gerade untersuchten Repräsentations-Abwandlung einerseits und den weiteren Repräsentations-Abwandlungen andererseits umfassen. Alternativ oder in Kombination hierzu kann die Distanzmetrik beispielsweise eine paarweise gegenseitige Information (Transinformation) zwischen der gerade untersuchten Repräsentations-Abwandlung einerseits und den weiteren Repräsentations-Abwandlungen andererseits umfassen. Es kann insbesondere beispielsweise eine differenzierbare Implementierung oder Näherung dieser Transinformation genutzt werden.The distance metric can, for example, include distances in pairs between the representation modification just examined on the one hand and the other representation modifications on the other. Alternatively or in combination with this, the distance metric can, for example, comprise mutual information (transinformation) in pairs between the representation modification just examined on the one hand and the further representation modifications on the other. In particular, a differentiable implementation or approximation of this transinformation can be used, for example.

Ausgehend von einem Eingabe-Bild x0 kann also die von den Repräsentations-Abwandlungen z abhängige Kostenfunktion L beispielsweise die Form L ( z , z ) = H ( y | μ θ ( x | z ) ) + d ( μ θ ( x | z ) , x 0 ) λ d ' ( z , z )

Figure DE102021214465A1_0001
haben. Hierin bezeichnet z* alle anderen Repräsentations-Abwandlungen als diejenige Repräsentations-Abwandlung z („Kandidat“), die aktuell bewertet werden soll. H ist ein, vorzugsweise differenzierbares, Maß für die Unsicherheit der Ausgabe des Bildklassifikators, wie hier beispielsweise eine Klasse y, der der Bildklassifikator eine aus einer Repräsentations-Abwandlung z erzeugte Bild-Abwandlung µθ (x | z) primär zuordnet. Hier soll die Notation µθ(x | z) verdeutlichen, dass die Bild-Abwandlung x durch den Decoder der trainierten Encoder-Decoder-Anordnung als Vorhersagemittel erzeugt wird unter der Voraussetzung, dass die Repräsentations-Abwandlung z ist.Starting from an input image x 0 , the cost function L dependent on the representation modifications z can, for example, have the form L ( e.g , e.g ) = H ( y | µ θ ( x | e.g ) ) + i.e ( µ θ ( x | e.g ) , x 0 ) λ i.e ' ( e.g , e.g )
Figure DE102021214465A1_0001
have. Here z* denotes all representation variants other than the representation variant z (“candidate”) that is currently to be evaluated. H is a preferably differentiable measure for the uncertainty of the output of the image classifier, such as a class y here, for example, to which the image classifier primarily assigns an image modification μ θ (x | z) generated from a representation modification z. Here, the notation µ θ (x|z) is intended to clarify that the image modification x is generated by the decoder of the trained encoder-decoder arrangement as a prediction means, provided that the representation modification is z.

d(µθ(x | z), x0), kurz d(x, x0), bezeichnet die Distanz zwischen der Bild-Abwandlung µθ (x | z) und dem Eingabe-Bild x0. Wie zuvor erläutert, kann diese Distanz d(x, x0) zwei im Raum der Bilder x, bzw. im Raum der Klassifikations-Scores f(x), gemessene Beiträge dx und dy enthalten: d ( x , x 0 ) = λ x d x ( x , x 0 ) + λ y d y ( f ( x ) , f ( x 0 ) ) .

Figure DE102021214465A1_0002
d'(z, z*) misst, wie „weit verstreut“ die Kandidaten z und z* sind. Zu diesem Zweck kann beispielsweise

  • • eine Summe der paarweisen Distanzen über alle Elemente von z* gebildet werden, wobei diese einzelnen Distanzen dann beispielsweise wieder mit einem der bereits erwähnten Ähnlichkeitsmaße gebildet werden können; und/oder
  • • eine Summe der paarweisen gegenseitigen Information (Transinformation) über alle Elemente von z* gebildet werden, wobei dann für die gegenseitige Information idealerweise eine differenzierbare Näherung verwendet wird.
d(µ θ (x | z), x 0 ), d(x, x 0 ) for short, denotes the distance between the image modification µ θ (x | z) and the input image x 0 . As explained before, this distance d(x, x 0 ) can contain two contributions d x and d y measured in the space of the images x, or in the space of the classification scores f( x ): i.e ( x , x 0 ) = λ x i.e x ( x , x 0 ) + λ y i.e y ( f ( x ) , f ( x 0 ) ) .
Figure DE102021214465A1_0002
d'(z,z*) measures how "dispersed" the candidates z and z* are. For this purpose, for example
  • • a sum of the paired distances over all elements of z* is formed, with these individual distances then being able to be formed again, for example, using one of the similarity measures already mentioned; and or
  • • a sum of the mutual information in pairs (transinformation) is formed over all elements of z*, in which case a differentiable approximation is then ideally used for the mutual information.

Das Minimieren der Kostenfunktion L(z,z*) führt auf eine oder mehrere optimale Repräsentations-Abwandlungen z#, und diese eine oder mehreren optimale Repräsentations-Abwandlungen z# führen dann auf eine oder mehrere optimale Bild-Abwandlungen x# = µθ(x | z#).Minimizing the cost function L(z,z*) leads to one or more optimal representation modifications z # , and these one or more optimal representation modifications z # then result in one or more optimal image modifications x # = µ θ ( x | z # ).

Insbesondere der Term d'(z, z*) in der Kostenfunktion L(z, z*) bewirkt, dass im Rahmen der Optimierung von vornherein gezielt Repräsentations-Abwandlungen z# erzeugt werden, die möglichst unähnlich zueinander sind. Dies sei an einem einfachen Beispiel verdeutlicht. Wenn es beispielsweise eine Ähnlichkeitsmatrix M gibt, die zu jedem Paar von zwei Kandidaten z angibt, wie ähnlich sich diese Kandidaten z sind, wobei kleinere Zahlenwerte einer größeren Ähnlichkeit entsprechen, kann d'(z, z*) als die Summe aller Matrixelemente von M berechnet werden.In particular, the term d′(z, z*) in the cost function L(z, z*) has the effect that representation modifications z # that are as dissimilar as possible to one another are generated from the outset as part of the optimization. This is illustrated with a simple example. For example, if there is a similarity matrix M that tells each pair of two candidates z how similar these candidates z are, with smaller numerical values corresponding to greater similarity, d'(z, z*) can be defined as the sum of all matrix elements of M be calculated.

In einer weiteren besonders vorteilhaften Ausgestaltung werden die Repräsentations-Umwandlungen aus einer vorgegebenen Umgebung um die Eingabe-Repräsentation gesampelt. Die Umgebung kann beispielsweise eine Hyperkugel mit einem vorgegebenen Radius δ um die Eingabe-Repräsentation sein. Dies begünstigt es, dass die Bild-Abwandlungen hinreichend ähnlich zum Eingabe-Bild sind und zugleich auch noch zu der gewünschten Verteilung gehören, der auch das Eingabe-Bild angehört.In a further particularly advantageous embodiment, the representation transformations are sampled from a predetermined environment around the input representation. For example, the environment can be a hypersphere with a given radius δ around the input representation. This favors the image modifications being sufficiently similar to the input image and at the same time belonging to the desired distribution to which the input image also belongs.

In einer weiteren vorteilhaften Ausgestaltung werden aus mindestens einer Repräsentations-Abwandlung durch einen anhand der Bewertung durch die Kostenfunktion geführten Optimierungsschritt eine oder mehrere weitere Repräsentations-Abwandlungen ermittelt. Es können insbesondere beispielsweise ausgehend von mehreren anfänglichen Kandidaten für Repräsentations-Abwandlungen jeweils Optimierungen durchgeführt werden, um so zu mehreren optimalen Bild-Abwandlungen zu gelangen, die sich auf unterschiedliche Aspekte des Eingabe-Bildes beziehen. Hierbei müssen diese Optimierungen nicht notwendigerweise nacheinander und unabhängig voneinander durchgeführt werden. Stattdessen können die Optimierungen durch den Term d'(z, z*) in der Kostenfunktion L(z, z*) aneinander gekoppelt sein. Es kann also eine gemeinsame Optimierung stattfinden, in der jeder Kandidat z sich nicht nur anhand seiner eigenen Vorgeschichte verändert, sondern auch abhängig von den Positionen aller anderen Kandidaten z* im Raum Z der Repräsentationen.In a further advantageous refinement, one or more further representation modifications are determined from at least one representation modification by means of an optimization step carried out on the basis of the evaluation by the cost function. In particular, starting from a number of initial candidates for representation modifications, for example, optimizations can be carried out in each case in order to arrive at a number of optimal image modifications which relate to different aspects of the input image. In this case, these optimizations do not necessarily have to be carried out one after the other and independently of one another. Instead, the optimizations can be coupled to one another by the term d'(z,z*) in the cost function L(z,z*). A joint optimization can therefore take place in which each candidate z is not only based on its own advantages history, but also depends on the positions of all other candidates z* in the space Z of representations.

Hierbei kann der Optimierungsschritt insbesondere beispielsweise anhand eines Gradienten der Kostenfunktion nach der Repräsentations-Abwandlung geführt sein. Dies kann dann noch optional dahingehend eingeschränkt werden, dass der Optimierungsschritt nur dann durchgeführt wird, wenn die vorgegebene Umgebung um die Eingabe-Repräsentation nicht verlassen würde. Optimierungsschritte können aber auch gemäß beliebiger anderer Optimierungsverfahren anhand der Bewertung durch die Kostenfunktion geführt sein. So kann beispielsweise ein Gradientenabstiegsverfahren noch um eine Schrittweitensteuerung ergänzt werden, die die Schrittweite von Optimierungsschritten erhöht, wenn aufeinander folgende Optimierungsschritte konsistent in die gleiche Richtung zeigen.In this case, the optimization step can be performed, for example, using a gradient of the cost function after the representation modification. This can then optionally be restricted such that the optimization step is only carried out if the specified environment around the input representation would not be left. However, optimization steps can also be performed according to any other optimization method based on the evaluation by the cost function. For example, a gradient descent method can be supplemented with a step size control that increases the step size of optimization steps if successive optimization steps consistently point in the same direction.

In einer weiteren besonders vorteilhaften Ausgestaltung wird in Antwort darauf, dass zwei Repräsentations-Abwandlungen nach Maßgabe eines vorgegebenen Ähnlichkeitsmaßes zueinander ähnlich sind, eine dieser Repräsentations-Abwandlungen verworfen. Das Ähnlichkeitsmaß kann zu diesem Zweck insbesondere beispielsweise mit einem absoluten oder relativen Schwellwert verglichen werden. Auf diese Weise werden redundante Repräsentations-Abwandlungen, die letztendlich das Gleiche aussagen, herausgefiltert. Es täuscht also nicht mehr eine große Zahl aufgefundener optimaler Repräsentations-Abwandlungen, und damit optimaler Bild-Abwandlungen, darüber hinweg, dass diese Abwandlungen sich alle um ein und dasselbe lokale Minimum der Kostenfunktion scharen. Stattdessen ist die Wahrscheinlichkeit erhöht, dass sich mehrere unterschiedliche optimale Repräsentations-Abwandlungen, bzw. Bild-Abwandlungen, auch tatsächlich auf unterschiedliche lokale Minima der Kostenfunktion beziehen.In a further particularly advantageous embodiment, one of these representation modifications is rejected in response to the fact that two representation modifications are similar to one another according to a predefined degree of similarity. For this purpose, the degree of similarity can be compared, for example, with an absolute or relative threshold value. In this way, redundant representation variations that ultimately say the same thing are filtered out. A large number of found optimal representation modifications, and thus optimal image modifications, no longer deceives the fact that these modifications all cluster around one and the same local minimum of the cost function. Instead, the probability is increased that several different optimal representation modifications or image modifications actually relate to different local minima of the cost function.

Das Ähnlichkeitsmaß kann insbesondere beispielsweise eine Distanz zwischen den beiden Repräsentations-Abwandlungen beinhalten. Diese Distanz kann beispielsweise in Form einer euklidischen Distanz, und/oder einer Kosinus-Distanz, zwischen den beiden Repräsentations-Abwandlungen gemessen werden. Zwei Repräsentations-Abwandlungen können insbesondere beispielsweise als ähnlich gewertet werden, wenn sie weniger als eine vorgegebene Distanz ε voneinander entfernt sind.The degree of similarity can include, for example, a distance between the two representation modifications. This distance can be measured, for example, in the form of a Euclidean distance and/or a cosine distance between the two representation variants. In particular, two representation modifications can be evaluated as similar, for example, if they are less than a predetermined distance ε away from one another.

Das Ähnlichkeitsmaß kann auch beispielsweise eine Distanz zwischen Bild-Abwandlungen beinhalten, auf die der Decoder der Encoder-Decoder-Anordnung die beiden Repräsentations-Abwandlungen abbildet. Die Ähnlichkeit wird dann direkt in dem Raum beurteilt, in dem letztendlich auch die optimalen Bild-Abwandlungen ausgewertet werden.The degree of similarity can also contain, for example, a distance between image modifications onto which the decoder of the encoder-decoder arrangement maps the two representation modifications. The similarity is then assessed directly in the room in which the optimal image modifications are ultimately also evaluated.

In einer weiteren besonders vorteilhaften Ausgestaltung wird die zu verwerfende Repräsentations-Abwandlung probabilistisch ausgewählt. Es kann also beispielsweise festgelegt werden, dass die eine Repräsentations-Abwandlung mit einer Wahrscheinlichkeit p und die andere mit einer Wahrscheinlichkeit von 1-p verworfen wird. Es kann alternativ oder auch in Kombination hierzu weiterhin probabilistisch gestaltet werden, ob überhaupt eine Repräsentations-Abwandlung verworfen wird oder ob beide Repräsentations-Abwandlungen erhalten bleiben.In a further particularly advantageous embodiment, the representation modification to be discarded is selected probabilistically. It can thus be specified, for example, that one representation modification is rejected with a probability of p and the other with a probability of 1-p. Alternatively or in combination with this, it can continue to be designed probabilistically as to whether a representation modification is discarded at all or whether both representation modifications are retained.

Weiterhin kann auch beispielsweise eine Repräsentations-Abwandlung in Antwort darauf, dass die hieraus erzeugte Bild-Abwandlung zu keiner Verbesserung der Task-Kostenfunktion gegenüber dem ursprünglichen Eingabe-Bild führt, verworfen werden. Dies, wie auch das Verwerfen einer von zweien zueinander zu ähnlichen Repräsentations-Abwandlungen, ist insbesondere im Zusammenhang mit einer fortlaufenden Optimierung der Repräsentations-Abwandlungen vorteilhaft. Es wird dann keine weitere Optimierungszeit auf Repräsentations-Abwandlungen verwendet, von denen kein weiterer Erkenntnisgewinn mehr zu erwarten ist. Ein insgesamt zur Verfügung stehendes Budget an Optimierungszeit kann also auf diejenigen Repräsentations-Abwandlungen fokussiert werden, die zusammen ein möglichst komplettes Bild des Verhaltens des Bildklassifikators liefern.Furthermore, for example, a representation modification can also be discarded in response to the fact that the image modification generated therefrom does not lead to any improvement in the task cost function compared to the original input image. This, as well as the discarding of one of two representation modifications that are too similar to one another, is particularly advantageous in connection with a continuous optimization of the representation modifications. No further optimization time is then used for representation modifications from which no further gain in knowledge can be expected. A budget of optimization time that is available overall can therefore be focused on those representation modifications that together provide as complete a picture as possible of the behavior of the image classifier.

Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.In particular, the method can be fully or partially computer-implemented. The invention therefore also relates to a computer program with machine-readable instructions which, when executed on one or more computers, cause the computer or computers to carry out the method described. In this sense, control devices for vehicles and embedded systems for technical devices that are also able to execute machine-readable instructions are also to be regarded as computers.

Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.The invention also relates to a machine-readable data carrier and/or a download product with the computer program. A downloadable product is a digital product that can be transmitted over a data network, i.e. can be downloaded by a user of the data network and that can be offered for sale in an online shop for immediate download, for example.

Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.Furthermore, a computer can be equipped with the computer program, with the machine-readable data carrier or with the downloadable product.

Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.Further measures improving the invention are presented in more detail below together with the description of the preferred exemplary embodiments of the invention with the aid of figures.

Ausführungsbeispieleexemplary embodiments

Es zeigt:

  • 1 Ausführungsbeispiel des Verfahrens 100 zur Bestimmung von Bildanteilen, auf die ein Bildklassifikator 1 seine Entscheidung stützt;
  • 2 Anwendungsbeispiel des Verfahrens 100 in der Qualitätskontrolle.
It shows:
  • 1 Exemplary embodiment of the method 100 for determining image parts on which an image classifier 1 bases its decision;
  • 2 Application example of method 100 in quality control.

1 ist ein schematisches Ausführungsbeispiel des Verfahrens 100 zur Untersuchung des Verhaltens eines Bildklassifikators 1, der ein Eingabe-Bild 2 einer oder mehreren Klassen einer vorgegebenen Klassifikation zuordnet. In dem in 1 gezeigten Beispiel wird das Verfahren 100 zur Bestimmung von Bildanteilen, auf die der Bildklassifikator 1 seine Entscheidung für die Zuordnung eines Eingabe-Bildes 2 zu einer oder mehreren Klassen einer vorgegebenen Klassifikation stützt, genutzt. 1 1 is a schematic embodiment of the method 100 for examining the behavior of an image classifier 1, which assigns an input image 2 to one or more classes of a given classification. in the in 1 In the example shown, the method 100 is used to determine image parts on which the image classifier 1 bases its decision to allocate an input image 2 to one or more classes of a specified classification.

In Schritt 110 wird das Eingabe-Bild 2 wird mit einem Encoder 3a einer trainierten Encoder-Decoder-Anordnung 3 auf eine Eingabe-Repräsentation 4 abgebildet.In step 110, the input image 2 is mapped onto an input representation 4 using an encoder 3a of a trained encoder-decoder arrangement 3 .

In Schritt 120 werden Repräsentations-Abwandlungen 4' dieser Eingabe-Repräsentation 4 ermittelt.In step 120, representation modifications 4' of this input representation 4 are determined.

In Schritt 130 werden diese Repräsentations-Abwandlungen 4' mit dem Decoder 3b der Encoder-Decoder-Anordnung 3 auf Bild-Abwandlungen 2' des Eingabe-Bildes 2 abgebildet.In step 130, these representation modifications 4' are mapped onto image modifications 2' of the input image 2 using the decoder 3b of the encoder-decoder arrangement 3.

In Schritt 140 wird jede Bild-Abwandlung 2' mit einer vorgegebenen Kostenfunktion 5 bewertet.In step 140, each image modification 2' is evaluated using a predetermined cost function 5.

Gemäß Block 141 wird der Wert 5a der Kostenfunktion 5 umso besser, je besser der Wert einer vorgegebenen Task-Kostenfunktion ist 141, die von einem durch den Bildklassifikator 1 aus der Bild-Abwandlung 2' ermittelten Verarbeitungsergebnis abhängt.According to block 141, the better the value of a predetermined task cost function 141, which depends on a processing result determined by the image classifier 1 from the image modification 2', the better the value 5a of the cost function 5 becomes.

Gemäß Block 142 wird der Wert 5a der Kostenfunktion 5 umso besser, je geringer eine mit einer vorgegebenen Distanzmetrik gemessene Distanz zwischen der untersuchten Bild-Abwandlung 2' und dem Eingabe-Bild 2 ist. According to block 142, the smaller a distance between the examined image modification 2' and the input image 2, measured with a predetermined distance metric, the better the value 5a of the cost function 5.

Gemäß Block 143 wird der Wert 5a der Kostenfunktion 5 umso besser, je größer mit einer vorgegebenen Distanzmetrik gemessene Distanzen zwischen der Repräsentations-Abwandlung 4', auf die die untersuchte Bild-Abwandlung 2' zurückgeht, und weiteren Repräsentations-Abwandlungen 4' sind.According to block 143, the value 5a of the cost function 5 improves the larger the distances between the representation modification 4′, on which the examined image modification 2′ is based, and further representation modifications 4′ are measured with a predetermined distance metric.

In Schritt 150 werden nach einem vorgegebenen Kriterium entscheidungsrelevante Bild-Abwandlungen 2* ausgewählt. Das vorgegebene Kriterium hängt von der Bewertung 5a durch die Kostenfunktion 5 ab.In step 150, image modifications 2* relevant to the decision are selected according to a predetermined criterion. The predetermined criterion depends on the evaluation 5a by the cost function 5.

In Schritt 160 werden aus den ausgewählten entscheidungsrelevanten Bild-Abwandlungen 2* die gesuchten Bildanteile 2**, auf die der Bildklassifikator (1) seine Entscheidung stützt, ausgewertet.In step 160, from the selected, decision-relevant image modifications 2*, the searched-for image parts 2**, on which the image classifier (1) bases its decision, are evaluated.

Gemäß Block 121 können die Repräsentations-Abwandlungen 4' aus einer vorgegebenen Umgebung um die Eingabe-Repräsentation 4 gesampelt werden.According to block 121, the representation modifications 4' can be sampled from a predetermined environment around the input representation 4.

Gemäß Block 122 können mindestens einer Repräsentations-Abwandlung 4' durch mindestens einen anhand der Bewertung 5a durch die Kostenfunktion 5 geführten Optimierungsschritt eine oder mehrere weitere Repräsentations-Abwandlungen 4' ermittelt werden. Ein solcher Optimierungsschritt kann gemäß Block 122a insbesondere beispielsweise anhand eines Gradienten der Kostenfunktion 5 nach der Repräsentations-Abwandlung 4' geführt sein,According to block 122, one or more further representation modifications 4' can be determined for at least one representation modification 4' by at least one optimization step performed by the cost function 5 on the basis of the evaluation 5a. Such an optimization step can be carried out according to block 122a, for example using a gradient of the cost function 5 after the representation modification 4',

Gemäß Block 123 kann in Antwort darauf, dass zwei Repräsentations-Abwandlungen 4' nach Maßgabe eines vorgegebenen Ähnlichkeitsmaßes zueinander ähnlich sind, eine dieser Repräsentations-Abwandlungen 4' verworfen werden.According to block 123, in response to the fact that two representation modifications 4' are similar to one another according to a predetermined degree of similarity, one of these representation modifications 4' can be discarded.

Dabei kann die zu verwerfende Repräsentations-Abwandlung 4' gemäß Block 123a probabilistisch ausgewählt werden.The representation modification 4' to be discarded can be selected probabilistically according to block 123a.

Gemäß Block 123b kann das Ähnlichkeitsmaß eine Distanz zwischen den beiden Repräsentations-Abwandlungen 4' beinhalten.According to block 123b, the measure of similarity can include a distance between the two representation modifications 4'.

Gemäß Block 123c kann das Ähnlichkeitsmaß eine Distanz zwischen Bild-Abwandlungen 2 beinhalten, auf die der Decoder 3b der Encoder-Decoder-Anordnung 3 die beiden Repräsentations-Abwandlungen 4' abbildet.According to block 123c, the degree of similarity can contain a distance between image modifications 2, onto which the decoder 3b of the encoder-decoder arrangement 3 maps the two representation modifications 4'.

Gemäß Block 124 kann mindestens eine Repräsentations-Abwandlung 4' in Antwort darauf, dass die hieraus erzeugte Bild-Abwandlung 2' zu keiner Verbesserung der Task-Kostenfunktion gegenüber dem Eingabe-Bild 2 führt, verworfen werden.According to block 124, at least one representation modification 4' may be discarded in response to the resulting image modification 2' resulting in no improvement in the task cost function over the input image 2.

Gemäß Block 141a kann die Task-Kostenfunktion eine mit einer vorgegebenen Unsicherheitsmetrik gemessene Unsicherheit, mit der der Bildklassifikator 1 die Bild-Abwandlung 2' einer oder mehreren Klassen der vorgegebenen Klassifikation zuordnet, beinhalten.According to block 141a, the task cost function can be an uncertainty measured with a predetermined uncertainty metric with which the image class sifikator 1 assigns the image modification 2' to one or more classes of the given classification.

Gemäß Block 141b kann die Task-Kostenfunktion einen oder mehrere Klassifikations-Scores in Bezug auf Klassen der vorgegebenen Klassifikation, die der Bildklassifikator 1 für die Bild-Abwandlung 2' ermittelt, beinhalten.According to block 141b, the task cost function may include one or more classification scores related to classes of the predetermined classification that the image classifier 1 determines for the image modification 2'.

Gemäß Block 144 können nur solche Bild-Abwandlungen 2' berücksichtigt werden, für die ein höchster durch den Bildklassifikator 1 ermittelter Klassifikations-Score sich auf die gleiche Klasse bezieht wie der höchste durch den Bildklassifikator 1 für das Eingabe-Bild 2 ermittelte Klassifikations-Score.According to block 144, only such image modifications 2' can be considered for which a highest classification score determined by image classifier 1 relates to the same class as the highest classification score determined by image classifier 1 for input image 2.

2 zeigt ein einfaches Anwendungsbeispiel aus der Materialprüfung. Der Bildklassifikator 1 ist in diesem Beispiel dazu ausgebildet, Eingabe-Bilder 2 binär in die Klassen „OK“ und „nicht OK = NOK“ einzuteilen. 2 shows a simple application example from material testing. In this example, the image classifier 1 is designed to classify input images 2 into the binary classes “OK” and “not OK=NOK”.

Das Eingabe-Bild 2 zeigt eine Schraubenmutter 10 mit einem Gewinde 11 in der Mitte und einem andeutungsweise zu sehenden Riss 12. Da der Riss 12 noch nicht wirklich gut zu sehen ist, wird das Eingabe-Bild 2 von dem für die Qualitätskontrolle verwendeten Bildklassifikator 1 noch in die Klasse „OK“ eingeordnet, aber nur mit einem vergleichsweise schwachen Klassifikations-Score von 0,6.The input image 2 shows a screw nut 10 with a thread 11 in the middle and a crack 12 that can be seen. Since the crack 12 is not yet clearly visible, the input image 2 is evaluated by the image classifier 1 used for quality control still classified in the "OK" class, but only with a comparatively weak classification score of 0.6.

In Schritt 110 des Verfahrens 100 wird das Eingabe-Bild 2 zur Eingabe-Repräsentation 4 im Raum Z der Repräsentationen realistischer Bilder überführt.In step 110 of the method 100, the input image 2 is transformed to the input representation 4 in the space Z of realistic image representations.

In Schritt 120 wird in diesem Raum Z aus der Eingabe-Repräsentation 4 eine Repräsentations-Abwandlung 4' gebildet.In step 120, a modified representation 4' is formed in this space Z from the input representation 4.

In Schritt 130 wird die Repräsentations-Abwandlung 4' zu einer Bild-Abwandlung 2' überführt. In dieser Bild-Abwandlung 2' ist der Riss 12 nicht mehr zu sehen. Daher wird die Bild-Abwandlung 2' vom Bildklassifikator 1 nach wie vor in die Klasse „OK“ eingeordnet, aber mit einem deutlich höheren Klassifikations-Score von 0,97. Die Bewertung mit der Kostenfunktion in Schritt 140 bringt dies an den Tag, und in der Folge wird die Bild-Abwandlung 150 als entscheidungsrelevante Bild-Abwandlung 2* ausgewählt. Die Auswertung in Schritt 160, etwa durch Vergleich mit dem Eingabe-Bild 2, identifiziert den Bereich, in dem in der Bild-Abwandlung 2' der Riss fehlt, als entscheidungsrelevanten Bildanteil.In step 130, the representation modification 4' is transformed into an image modification 2'. The crack 12 can no longer be seen in this image modification 2'. Therefore, image modification 2' is still classified as OK by image classifier 1, but with a significantly higher classification score of 0.97. The evaluation with the cost function in step 140 reveals this, and subsequently the image modification 150 is selected as the decision-relevant image modification 2*. The evaluation in step 160, for example by comparison with the input image 2, identifies the area in which the crack is missing in the image modification 2' as a decision-relevant image portion.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

  • WO 2018197074 A1 [0003]WO 2018197074 A1 [0003]

Claims (18)

Verfahren (100) zur Untersuchung des Verhaltens eines Bildklassifikators (1), der ein Eingabe-Bild (2) einer oder mehreren Klassen einer vorgegebenen Klassifikation zuordnet, mit den Schritten: • das Eingabe-Bild (2) wird mit einem Encoder (3a) einer trainierten Encoder-Decoder-Anordnung (3) auf eine Eingabe-Repräsentation (4) abgebildet (110); • es werden Repräsentations-Abwandlungen (4') dieser Eingabe-Repräsentation (4) ermittelt (120); • diese Repräsentations-Abwandlungen (4') werden mit dem Decoder (3b) der Encoder-Decoder-Anordnung (3) auf Bild-Abwandlungen (2') des Eingabe-Bildes (2) abgebildet (130); • jede Bild-Abwandlung (2') wird mit einer vorgegebenen Kostenfunktion (5) bewertet (140), deren Wert (5a) umso besser wird, ◯ je besser der Wert einer vorgegebenen Task-Kostenfunktion ist (141), die von einem durch den Bildklassifikator (1) aus der Bild-Abwandlung (2') ermittelten Verarbeitungsergebnis abhängt; ◯ je geringer eine mit einer vorgegebenen Distanzmetrik gemessene Distanz zwischen dieser Bild-Abwandlung (2') und dem Eingabe-Bild (2) ist (142); und ◯ je größer mit einer vorgegebenen Distanzmetrik gemessene Distanzen zwischen der Repräsentations-Abwandlung (4'), auf die diese Bild-Abwandlung (2') zurückgeht, und weiteren Repräsentations-Abwandlungen (4') sind (143); • nach einem vorgegebenen Kriterium, das von der Bewertung (5a) durch die Kostenfunktion (5) abhängt, werden entscheidungsrelevante Bild-Abwandlungen (2*) ausgewählt (150). Method (100) for examining the behavior of an image classifier (1), which assigns an input image (2) to one or more classes of a specified classification, with the steps: • the input image (2) is mapped (110) to an input representation (4) using an encoder (3a) of a trained encoder-decoder arrangement (3); • Representation modifications (4') of this input representation (4) are determined (120); • these representation modifications (4') are mapped (130) to image modifications (2') of the input image (2) with the decoder (3b) of the encoder-decoder arrangement (3); • each image modification (2') is evaluated (140) with a predetermined cost function (5), the value (5a) of which becomes the better, ◯ the better the value of a predetermined task cost function (141), which depends on a processing result determined by the image classifier (1) from the image modification (2'); ◯ the smaller a distance measured with a predetermined distance metric is between this image modification (2') and the input image (2) (142); and ◯ the larger the distances between the representation modification (4') measured with a predetermined distance metric, to which this image modification (2') is based, and further representation modifications (4') are (143); • Decision-relevant image modifications (2*) are selected (150) according to a predetermined criterion, which depends on the evaluation (5a) by the cost function (5). Verfahren (100) nach Anspruch 1, wobei aus den ausgewählten entscheidungsrelevanten Bild-Abwandlungen (2*) Bildanteile (2**), auf die der Bildklassifikator (1) seine Entscheidung stützt, ausgewertet werden (160).Method (100) according to claim 1 , image components (2**) on which the image classifier (1) bases its decision being evaluated (160) from the selected, decision-relevant image modifications (2*). Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei die Task-Kostenfunktion eine mit einer vorgegebenen Unsicherheitsmetrik gemessene Unsicherheit, mit der der Bildklassifikator (1) die Bild-Abwandlung (2') einer oder mehreren Klassen der vorgegebenen Klassifikation zuordnet, beinhaltet (141a).Method (100) according to any one of Claims 1 until 2 , wherein the task cost function includes an uncertainty measured with a predetermined uncertainty metric, with which the image classifier (1) assigns the image modification (2') to one or more classes of the predetermined classification (141a). Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Task-Kostenfunktion einen oder mehrere Klassifikations-Scores in Bezug auf Klassen der vorgegebenen Klassifikation, die der Bildklassifikator (1) für die Bild-Abwandlung (2') ermittelt, beinhaltet (141b).Method (100) according to any one of Claims 1 until 3 , wherein the task cost function includes (141b) one or more classification scores relating to classes of the predetermined classification which the image classifier (1) determines for the image modification (2'). Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei nur solche Bild-Abwandlungen (2') berücksichtigt werden (144), für die ein höchster durch den Bildklassifikator (1) ermittelter Klassifikations-Score sich auf die gleiche Klasse bezieht wie der höchste durch den Bildklassifikator (1) für das Eingabe-Bild (2) ermittelte Klassifikations-Score.Method (100) according to any one of Claims 1 until 4 , whereby only such image modifications (2') are considered (144) for which a highest classification score determined by the image classifier (1) relates to the same class as the highest by the image classifier (1) for the input Image (2) determined classification score. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei die Repräsentations-Abwandlungen (4') aus einer vorgegebenen Umgebung um die Eingabe-Repräsentation (4) gesampelt werden (121).Method (100) according to any one of Claims 1 until 5 , wherein the representation modifications (4') are sampled (121) from a predetermined environment around the input representation (4). Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei aus mindestens einer Repräsentations-Abwandlung (4') durch mindestens einen anhand der Bewertung (5a) durch die Kostenfunktion (5) geführten Optimierungsschritt eine oder mehrere weitere Repräsentations-Abwandlungen (4') ermittelt werden (122).Method (100) according to any one of Claims 1 until 6 , wherein one or more further representation modifications (4') are determined (122) from at least one representation modification (4') by at least one optimization step guided by the cost function (5) on the basis of the evaluation (5a). Verfahren (100) nach Anspruch 7, wobei der Optimierungsschritt anhand eines Gradienten der Kostenfunktion (5) nach der Repräsentations-Abwandlung (4') geführt ist (122a).Method (100) according to claim 7 , wherein the optimization step is performed (122a) using a gradient of the cost function (5) after the representation modification (4'). Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei in Antwort darauf, dass zwei Repräsentations-Abwandlungen (4') nach Maßgabe eines vorgegebenen Ähnlichkeitsmaßes zueinander ähnlich sind, eine dieser Repräsentations-Abwandlungen (4') verworfen wird (123).Method (100) according to any one of Claims 1 until 8th , wherein in response to the fact that two representation modifications (4') are similar to one another according to a predetermined degree of similarity, one of these representation modifications (4') is discarded (123). Verfahren (100) nach Anspruch 9, wobei die zu verwerfende Repräsentations-Abwandlung (4') probabilistisch ausgewählt wird (123a).Method (100) according to claim 9 , wherein the representation modification (4') to be discarded is selected probabilistically (123a). Verfahren (100) nach einem der Ansprüche 9 bis 10, wobei das Ähnlichkeitsmaß eine Distanz zwischen den beiden Repräsentations-Abwandlungen (4') beinhaltet (123b).Method (100) according to any one of claims 9 until 10 , wherein the measure of similarity includes a distance between the two representation modifications (4') (123b). Verfahren (100) nach einem der Ansprüche 9 bis 11, wobei das Ähnlichkeitsmaß eine Distanz zwischen Bild-Abwandlungen (2) beinhaltet, auf die der Decoder (3b) der Encoder-Decoder-Anordnung (3) die beiden Repräsentations-Abwandlungen (4') abbildet (123c).Method (100) according to any one of claims 9 until 11 , wherein the measure of similarity includes a distance between image modifications (2) onto which the decoder (3b) of the encoder-decoder arrangement (3) maps the two representation modifications (4') (123c). Verfahren (100) nach einem der Ansprüche 1 bis 12, wobei mindestens eine Repräsentations-Abwandlung (4') in Antwort darauf, dass die hieraus erzeugte Bild-Abwandlung (2') zu keiner Verbesserung der Task-Kostenfunktion gegenüber dem Eingabe-Bild (2) führt, verworfen wird (124).Method (100) according to any one of Claims 1 until 12 wherein at least one representation modification (4') is discarded (124) in response to the image modification (2') generated therefrom resulting in no improvement in the task cost function over the input image (2). Verfahren (100) nach einem der Ansprüche 1 bis 13, wobei das Eingabe-Bild (2) ein Bild eines hergestellten Produkts umfasst und wobei der Bildklassifikator (1) dazu ausgebildet ist, das Eingabe-Bild (2) im Hinblick auf eine Qualitätsbewertung des Produkts zu klassifizieren.Method (100) according to any one of Claims 1 until 13 , wherein the input image (2) comprises an image of a manufactured product and wherein the image classifier (1) is designed to classify the input image (2) with regard to a quality assessment of the product. Verfahren (100) nach einem der Ansprüche 1 bis 13, wobei das Eingabe-Bild (2) ein Bild einer Verkehrssituation oder ein Bild eines überwachten Bereichs umfasst und wobei der Bildklassifikator (1) dazu ausgebildet ist, das Eingabe-Bild (2) im Hinblick auf darin enthaltene Objekte zu klassifizieren.Method (100) according to any one of Claims 1 until 13 , wherein the input image (2) comprises an image of a traffic situation or an image of a monitored area and wherein the image classifier (1) is designed to classify the input image (2) with regard to objects contained therein. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 15 auszuführen.Computer program containing machine-readable instructions which, when executed on one or more computers, cause the computer or computers to perform the method (100) according to any one of Claims 1 until 15 to execute. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 16.Machine-readable data carrier with the computer program Claim 16 . Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 16, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 17.One or more computers with the computer program after Claim 16 , and/or with the machine-readable data medium Claim 17 .
DE102021214465.9A 2021-12-15 2021-12-15 Analysis of the behavior of image classifiers Pending DE102021214465A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021214465.9A DE102021214465A1 (en) 2021-12-15 2021-12-15 Analysis of the behavior of image classifiers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021214465.9A DE102021214465A1 (en) 2021-12-15 2021-12-15 Analysis of the behavior of image classifiers

Publications (1)

Publication Number Publication Date
DE102021214465A1 true DE102021214465A1 (en) 2023-06-15

Family

ID=86498134

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021214465.9A Pending DE102021214465A1 (en) 2021-12-15 2021-12-15 Analysis of the behavior of image classifiers

Country Status (1)

Country Link
DE (1) DE102021214465A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018197074A1 (en) 2017-04-27 2018-11-01 Robert Bosch Gmbh Inspection apparatus for optically inspecting an object, and object inspection arrangement

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018197074A1 (en) 2017-04-27 2018-11-01 Robert Bosch Gmbh Inspection apparatus for optically inspecting an object, and object inspection arrangement

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GONG, Dong, et al. Memorizing Normality to Detect Anomaly: Memory-Augmented Deep Autoencoder for Unsupervised Anomaly Detection. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE. S. 1705-1714
WANG, Lu, et al. Image anomaly detection using normal data only by latent space resampling. Applied Sciences, 2020, 10. Jg., Nr. 23, 8660

Similar Documents

Publication Publication Date Title
EP1181525B1 (en) Method for the automatic analysis of microscope images
DE102019204139A1 (en) Training for artificial neural networks with better utilization of the learning data sets
DE102018220941A1 (en) Evaluation of measured variables with AI modules taking into account measurement uncertainties
DE102021100444A1 (en) MICROSCOPY SYSTEM AND METHOD FOR EVALUATION OF IMAGE PROCESSING RESULTS
DE102018205561A1 (en) Device for classifying signals
DE102022110889A1 (en) SEMI-SUPERVISED TRAINING OF COARSE LABELS IN IMAGE SEGMENTATION
EP1203342A2 (en) Method and device for segmenting a point distribution
WO2021228894A1 (en) Image analysis method in microscopy
DE102010046867A1 (en) Method for classifying patterns in image data sets
DE102021214465A1 (en) Analysis of the behavior of image classifiers
DE102020208474B4 (en) Measuring the sensitivity of classifiers based on interacting disturbances
DE102019204118A1 (en) Method for transferring a feature of a first image to a second image
Schmies et al. Classification of fracture characteristics and fracture mechanisms using deep learning and topography data
EP3923193A1 (en) Measurement of sensitivity of image classifiers against changes in the input image
DE102020212005B4 (en) Procedure for determining the image parts that are relevant for an image classifier
DE102019211017A1 (en) Method for clustering different time series values of vehicle data and use of the method
DE102020210732A1 (en) Method for measuring the relevance of image areas for decisions of an image classifier
DE102022207482B4 (en) Computer-implemented method for determining a data quality index, computer program and control unit
DE102020216054A1 (en) Determine the effect of the input image of an image classifier on an intermediate product formed by convolutional layers
DE102022121542A1 (en) Microscopy system and method for testing the sensitivity of an image processing model
DE102022201161A1 (en) Object classification with a one-level meta-based object detector using class prototypes
DE102020210729A1 (en) Training of classifier networks for a better explainability of the obtained classification scores
DE102021200877A1 (en) Quantitative assessment of relevance rating functions for the output of an image classifier
DE102020214996A1 (en) Measurement of the sensitivity of an image classifier to changes in the input image
DE102021206877A1 (en) Quantitative evaluation of an image processor for generating counterfactual images

Legal Events

Date Code Title Description
R163 Identified publications notified