DE102021214253A1

DE102021214253A1 - Bestimmung der für eine Bildverarbeitung mit einem Transformer-Netzwerk entscheidungsrelevanten Bildanteile

Info

Publication number: DE102021214253A1
Application number: DE102021214253.2A
Authority: DE
Inventors: Andres Mauricio Munoz Delgado
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-15

Abstract

Verfahren (100) zur Messung, welche Anteile (1a-1i) eines Eingabe-Bildes (1) für das Ergebnis (4) einer automatisierten Verarbeitung dieses Bildes (1) mit einem neuronalen Transformer-Netzwerk (2) maßgeblich sind, wobei dieses neuronale Transformer-Netzwerk (2)• mindestens eine Beziehungseinheit (21), die das Eingabe-Bild (1) anhand von Wechselbeziehungen zwischen unterschiedlichen Anteilen (1a-1i) des Eingabe-Bildes (1) zu einem Zwischenprodukt (3) verarbeitet, und• mindestens eine Aufgabeneinheit (22), die das Zwischenprodukt (3) zu einem Ergebnis (4) im Hinblick auf die an das Transformer-Netzwerk (2) gestellte Aufgabe verarbeitet, aufweist, mit den Schritten:• die Beziehungseinheit (21) wird veranlasst (110), Wechselbeziehungen zwischen einem oder mehreren zu prüfenden Anteilen (1*) des Eingabe-Bildes (1) und den übrigen Anteilen (1a-1i) des Eingabe-Bildes (1) bei der Bildung des Zwischenprodukts (3) unberücksichtigt zu lassen und so ein Test-Zwischenprodukt (3*) zu erstellen;• mit der Aufgabeneinheit (22) wird das Test-Zwischenprodukt (3*) zu einem Test-Ergebnis (4*) verarbeitet (120);• das Test-Ergebnis (4*) wird mit einem unter Berücksichtigung aller Anteile (1a-1i) des Eingabe-Bildes (1) ermittelten Ergebnis (4) verglichen (130);• aus dem Ergebnis (130a) dieses Vergleichs (130) wird mindestens ein Relevanz-Score (5) ausgewertet (140), der ein Maß dafür ist, inwieweit der oder die zu prüfenden Anteile (1*) des Eingabe-Bildes (1) für das Ergebnis (4) relevant sind.

Description

Die vorliegende Erfindung betrifft die Bildverarbeitung mit einem neuronalen Transformer-Netzwerk, welches insbesondere beispielsweise als Bildklassifikator ausgebildet sein kann.
Stand der Technik
Bei der Serienfertigung von Produkten ist es in der Regel erforderlich, die Qualität der Fertigung laufend zu überprüfen. Dabei wird angestrebt, Qualitätsprobleme möglichst schnell zu erkennen, um die Ursache baldmöglichst beheben zu können und nicht zu viele Einheiten des jeweiligen Produkts als Ausschuss zu verlieren.
Die optische Kontrolle der Geometrie und/oder Oberfläche eines Produkts ist schnell und zerstörungsfrei. Die WO 2018/197 074 A1 offenbart eine Prüfvorrichtung, in der ein Objekt einer Vielzahl von Beleuchtungssituationen ausgesetzt werden kann, wobei in jeder dieser Beleuchtungssituationen mit einer Kamera Bilder des Objekts aufgezeichnet werden. Aus diesen Bildern wird die Topographie des Objekts ausgewertet.
Bilder des Produkts können auch unmittelbar mit einem Bildklassifikator auf der Basis künstlicher neuronaler Netzwerke einer von mehreren Klassen einer vorgegebenen Klassifikation zugeordnet werden. Auf dieser Basis kann das Produkt einer von mehreren vorgegebenen Qualitätsklassen zugeordnet werden. Im einfachsten Fall ist diese Klassifikation binär („OK“ / „nicht OK“).
Beim zumindest teilweise automatisierten Führen von Fahrzeugen werden ebenfalls trainierbare Bildklassifikatoren eingesetzt, um Verkehrssituationen zu bewerten oder zumindest auf ihren Gehalt an Objekten zu untersuchen.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zur Messung, welche Anteile eines Eingabe-Bildes für das Ergebnis einer automatisierten Verarbeitung dieses Bildes mit einem neuronalen Transformer-Netzwerk maßgeblich sind, bereit.
Dieses Transformer-Netzwerk umfasst mindestens eine Beziehungseinheit, die das Eingabe-Bild anhand von Wechselbeziehungen zwischen unterschiedlichen Anteilen des Eingabe-Bildes zu einem Zwischenprodukt verarbeitet. Da diese Wechselbeziehungen so aufgefasst werden können, dass ausgehend von einem Anteil des Eingabe-Bildes auf bestimmte andere Anteile des Eingabe-Bildes geachtet wird, wird die Beziehungseinheit im Englischen auch „attention block“ oder „attention head“ genannt.
Die Anteile des Eingabe-Bildes können insbesondere beispielsweise zu nicht überlappenden räumlichen Teilbereichen des Eingabe-Bildes (auch „Patches“ genannt) korrespondieren. Über die Abmessungen dieser Teilbereiche lässt sich dann einstellen, auf welcher räumlichen Größenskala Merkmale des Eingabe-Bildes untersucht werden. Die Anteile des Eingabe-Bildes können aber auch in beliebiger anderer Weise definiert sein. Beispielsweise kann auch eine Darstellung des Eingabe-Bildes als Linearkombination von Basisfunktionen in einem Funktionenraum, wie sie etwa durch Fourier- oder Wavelet-Analyse des Eingabe-Bildes erhalten wird, in Anteile zerlegt werden, von denen einer oder mehrere im Rahmen des hier beschriebenen Verfahrens geprüft werden.
Das Transformer-Netzwerk umfasst weiterhin mindestens eine Aufgabeneinheit, die das von der Beziehungseinheit erstellte Zwischenprodukt zu einem Ergebnis im Hinblick auf die an das Transformer-Netzwerk gestellte Aufgabe verarbeitet. Diese Aufgabeneinheit kann beispielsweise ein Perzeptron aus mehreren Schichten des neuronalen Transformer-Netzwerks (multi-layer perceptron, MLP) umfassen.
Weiterhin können optional die Anteile des Eingabe-Bildes vor der Verarbeitung durch die Beziehungseinheit, und/oder das Zwischenprodukt vor der Verarbeitung durch die Aufgabeneinheit, noch zusätzlich verarbeitet und hier insbesondere beispielsweise normiert werden.
Das Transformer-Netzwerk kann insbesondere beispielsweise mehrere hintereinander geschaltete Anordnungen aus je einer Beziehungseinheit und einer Aufgabeneinheit umfassen. Jede dieser Anordnungen kann dann die Ergebnisse der jeweils vorherigen Anordnungen iterativ verfeinern.
Im Rahmen des Verfahrens wird nun die Beziehungseinheit veranlasst, Wechselbeziehungen zwischen einem oder mehreren zu prüfenden Anteilen des Eingabe-Bildes und den übrigen Anteilen des Eingabe-Bildes bei der Bildung des Zwischenprodukts unberücksichtigt zu lassen und so ein Test-Zwischenprodukt zu erstellen. Dieses Test-Zwischenprodukt wird zu einem Test-Ergebnis verarbeitet, das wiederum mit einem unter Berücksichtigung aller Anteile des Eingabe-Bildes ermittelten Ergebnis verglichen wird.
Aus dem Ergebnis dieses Vergleichs wird mindestens ein Relevanz-Score ausgewertet. Dieser Relevanz-Score ist ein Maß dafür, inwieweit der oder die zu prüfenden Anteile des Eingabe-Bildes für das Ergebnis relevant sind. Wenn nicht nur ein Anteil des Eingabe-Bildes (etwa ein „Patch“) geprüft wird, sondern eine Zusammenstellung aus mehreren solchen Anteilen, dann können je nach der für die Auswertung verwendeten vorgegebenen Metrik unterschiedliche Anteile des Eingabe-Bildes unterschiedliche Relevanz-Scores erhalten.
Es wurde erkannt, dass in der beschriebenen Weise beim Ermitteln des Test-Ergebnisses der Einfluss des oder der zu prüfenden Anteile des Eingabe-Bildes besonders gut unterdrückt werden kann, ohne dass hierdurch Artefakte in das Eingabe-Bild eingebracht werden oder der Verarbeitungsprozess in unerwünschter Weise vom Verarbeitungsprozess des ursprünglichen Eingabe-Bildes abweicht. Auf diese Weise wird die Aussage, inwieweit sich durch das Unterdrücken der Information aus bestimmten zu prüfenden Anteilen des Eingabe-Bildes das vom Transformer-Netzwerk gelieferte Ergebnis ändert, belastbarer.
So besteht beispielsweise eine gängige Methode zur Unterdrückung von Information in bestimmten Pixeln des Eingabe-Bildes darin, diese Pixel unmittelbar im Eingabe-Bild auf Null oder einen anderen konstanten Wert zu setzen, zu verrauschen, weichzuzeichnen oder in sonstiger Weise abzuändern. Hierbei gibt es jedoch keine Garantie dafür, dass ein in dieser Weise verändertes Eingabe-Bild noch der Verteilung von Eingabe-Bildern angehört, die durch die beim Training des Transformer-Netzwerks genutzten Trainingsbilder definiert wird. Wenn aber ein Eingabe-Bild außerhalb der beim Training definierten Verteilung stehen sollte, gibt es keinen zwingenden Grund mehr dafür, dass das Transformer-Netzwerk dieses Eingabe-Bild zu einem für die jeweilige konkrete Anwendung brauchbaren Ergebnis verarbeiten sollte. Dies ist ein Stück weit analog dazu, dass ein langjähriges Leben und Teilnehmen am Straßenverkehr in einer Stadt A einem Fahrzeugführer nicht zwingend auch Ortskenntnisse verleiht, um sich in einer anderen Stadt B zurechtzufinden. Der Fahrzeugführer kann dann in der Stadt B von Erfahrungen zehren, die für die meisten Städte gültig sind, und etwa zum Auffinden des Hauptbahnhofs das Zentrum ansteuern. Es ist aber nicht abzusehen, welche Aufgaben der Fahrzeugführer in der Stadt B noch erfolgreich bewältigen wird und welche nicht.
Weiterhin können durch Weichzeichnen oder andere direkt auf das Bild angewendete Veränderungen, die Information im Bild unterdrücken sollen, auch unerwünschte Informationen in das Bild einbringen. Wenn beispielsweise Bildanteile durch Schwärzen unkenntlich gemacht werden sollen, kann dies in einem Graustufenbild, in dem die Farbe Schwarz eine wichtige Bedeutung hat, Information einfügen, die vorher gar nicht da war.
Gemäß dem hier vorgeschlagenen Verfahren bleibt hingegen das Eingabe-Bild unverändert, so dass es nach wie vor Teil der beim Training definierten Verteilung ist. Durch den Eingriff in die in der Beziehungseinheit durchgeführte Verarbeitung wird lediglich selektiv verhindert, dass Information aus dem oder den zu prüfenden Anteilen des Eingabe-Bildes in die Bildung des vom Transformer-Netzwerk gelieferten Ergebnisses eingehen. Wenn nun die normale Verarbeitung des ursprünglichen Eingabe-Bildes zu einem ersten Ergebnis A führt und die Verarbeitung mit dem Eingriff in die Beziehungseinheit ein hiervon im Rahmen der konkreten Anwendung signifikant verschiedenes Test-Ergebnis B liefert, dann folgt hieraus, dass die in den zu prüfenden Anteilen des Eingabe-Bildes enthaltene Information für die Entscheidung des Transformer-Netzwerks über das Ergebnis relevant ist.
Die solchermaßen ermittelten Relevanz-Scores können insbesondere beispielswiese für eine Anomalieerkennung eines Bildverarbeitungssystems genutzt werden. In vielen Anwendungen ist Zusatzinformation dahingehend verfügbar, welche Anteile des Eingabe-Bildes für das von dem System gelieferte Ergebnis relevant sind. Daher wird in einer besonders vorteilhaften Ausgestaltung mindestens ein Relevanz-Score für einen Anteil des Eingabe-Bildes gegen eine vorgegebene Zusatzinformation hinsichtlich der Relevanz dieses Anteils plausibilisiert. Anhand des Ergebnisses dieser Plausibilisierung wird eine Verlässlichkeit des vom neuronalen Transformer-Netzwerk gelieferten Ergebnisses in Bezug auf das Eingabe-Bild ermittelt.
Wenn beispielsweise Bilder, die die Umgebung eines zu steuernden Fahrzeugs zeigen, dahingehend ausgewertet werden, wie sich das zu steuernde Fahrzeug in näherer Zukunft verhalten sollte, so gibt es Bereiche, von denen bekannt ist, dass sie für diese Entscheidung nicht relevant ist. Das Fahrzeug sollte also beispielsweise auf Verkehrszeichen reagieren, die unmittelbar am Straßenrand stehen und für das Fahrzeug tatsächlich gelten, nicht jedoch auf Verkehrszeichen, die in Schaufenstern von Geschäften als Blickfang für Passanten ausgestellt sind.
Ebenso ist bei der Qualitätskontrolle von in Serie gefertigten Produkten vorab bekannt, wo im Bild sich das zu prüfende Produkt befindet. Die Entscheidung über das Qualitätsurteil für ein bestimmtes Exemplar des Produkts sollte maßgeblich nur von Bildbereichen abhängen, die tatsächlich zum Objekt gehören, und nicht von Bildbereichen, die zu einem mechanischen Halter für dieses Objekt oder zum Bildhintergrund gehören.
Weiterhin kann in dem Fall, dass die für das vom System gelieferte Ergebnis tatsächlich relevanten Anteile des Eingabe-Bildes nicht denjenigen Anteilen entsprechen, die eigentlich relevant sein sollten, die Differenz zwischen den tatsächlich relevanten Anteilen einerseits und der Erwartung für die relevanten Anteile andererseits ausgewertet werden. Beispielsweise kann hiermit ein Bias ermittelt werden, den das Transformer-Netzwerk aus den Trainingsdaten gelernt hat. Dies kann beispielsweise relevant sein, wenn ein mit Trainingsdaten aus einem ersten Land trainiertes Transformer-Netzwerk Eingabe-Bilder aus einem zweiten Land mit anderen Verkehrsregeln verarbeitet. So ist in den USA beispielsweise festgelegt, dass Schulbusse ausnahmslos gelb sind, während in Deutschland Schulbusse jede beliebige Farbgebung haben können und lediglich mit einem orange-schwarzen Schulbusschild gekennzeichnet sein müssen. Wenn das Transformer-Netzwerk mit Trainingsdaten aus den USA trainiert wurde, achtet es möglicherweise mehr auf die gelbe Farbgebung am ganzen Fahrzeug als auf ein möglicherweise vorhandenes Schulbusschild.
Auch bei der Überwachung von Bereichen auf beispielsweise unbefugte Eindringlinge sind vergleichbare Zusatzinformationen verfügbar. So sollte beispielsweise bei der Überwachung eines Firmengeländes kein Eindringling in einem Luftraum über dem Firmengelände gemeldet werden, der faktisch gar nicht für Menschen zugänglich ist.
In diesen und weiteren Anwendungen kann somit aus der Feststellung, dass das Transformer-Netzwerk eine Entscheidung auf gemäß der Zusatzinformation nicht relevante Anteile des Eingabe-Bildes stützt, auf das Vorliegen einer Anomalie bei der Bildverarbeitung durch das Transformer-Netzwerk geschlossen werden.
Somit wird in einer weiteren vorteilhaften Ausgestaltung unter Heranziehung der ermittelten Verlässlichkeit wird ein Ansteuersignal für ein Fahrzeug, für ein System zur Qualitätskontrolle gefertigter Produkte, und/oder für ein System zur Überwachung von Bereichen, ermittelt. Das Fahrzeug, das System zur Qualitätskontrolle, und/oder das System zur Überwachung von Bereichen, wird mit dem Ansteuersignal angesteuert. Beispielsweise kann das Fahrzeug bzw. System dazu veranlasst werden, zusätzlich auch Informationen einer weiteren Sensormodalität, und/oder ein in anderer Weise trainiertes neuronales Netzwerk, für seine Entscheidung heranzuziehen.
In einer besonders vorteilhaften Ausgestaltung ist das neuronale Transformer-Netzwerk ein Bildklassifikator. Die Aufgabeneinheit dieses Bildklassifikators bildet dann das Zwischenprodukt, bzw. das Test-Zwischenprodukt, jeweils auf einen oder mehrere Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation als Ergebnis, bzw. Test-Ergebnis, ab. Der Vergleich der aus dem Zwischenprodukt einerseits und aus dem Test-Zwischenprodukt andererseits erhaltenen Klassifikations-Scores ermöglicht eine einsichtige Quantifizierung der Relevanz von Anteilen des Eingabe-Bildes.
Beispielsweise kann in Antwort darauf, dass

• mindestens ein unter Berücksichtigung aller Anteile des Eingabe-Bildes ermittelter Klassifikations-Score auf einer Seite eines vorgegebenen Schwellwerts liegt und
• der hierzu korrespondierende Klassifikations-Score aus dem Test-Ergebnis auf der anderen Seite des vorgegebenen Schwellwerts liegt,

• der Betrag, um den der Klassifikations-Score durch die Nichtberücksichtigung der besagten Anteile verändert wurde, und/oder
• der Betrag, um den dieser Klassifikations-Score nunmehr unterhalb des Schwellwerts liegt,

Diese Analyse kann auch für einen ganzen Datensatz mit vielen Eingabe-Bildern durchgeführt werden. Es kann dann beispielsweise der zahlenmäßige Anteil derjenigen Eingabe-Bilder ausgewertet werden, für die etwa das Unterdrücken von Information in einem bestimmten „Patch“ an einem bestimmten festen Ort im Eingabe-Bild die Klassifikationsentscheidung des Transformer-Netzwerks ändert.
Dies ist beispielsweise bei Anwendungen in der Qualitätskontrolle hilfreich, in denen die Eingabe-Bilder alle vergleichsweise ähnlich sind und ein bestimmter räumlicher „Patch“ typischerweise in allen Eingabe-Bildern zum gleichen semantischen Anteil des Bildinhalts korrespondiert.
Die Beziehungseinheit kann insbesondere beispielsweise ein Zwischenprodukt mit Beiträgen erzeugen, die jeweils von einem Anteil des Eingabe-Bildes sowie einer Aggregation weiterer Anteile des Eingabe-Bildes abhängt. Jeder dieser Beiträge gibt dann jeweils an, wie stark ein Anteil des Eingabe-Bildes auf andere Anteile „achtet“.
Die Aggregation weiterer Anteile des Eingabe-Bildes kann insbesondere beispielsweise eine gewichtete Summe der weiteren Anteile des Eingabe-Bildes beinhalten. Auf diese Weise lässt sich abbilden, dass ausgehend von einem bestimmten Anteil des Eingabe-Bildes einige weitere Anteile des Eingabe-Bildes wichtiger sein können als andere Teile des Eingabe-Bildes.
Die Aggregation kann insbesondere beispielsweise elementweise Produkte des einen Anteils des Eingabe-Bildes mit der Aggregation beinhalten. Die Wechselwirkung des einen Anteils des Eingabe-Bildes mit der Aggregation aus den weiteren Anteilen wirkt sich dann nur in denjenigen Bildbereichen aus, in denen der eine Anteil des Eingabe-Bildes selbst eine ausreichende Menge an Information enthält.
Die Beziehungseinheit kann insbesondere beispielsweise eine lineare Sequenz von Anteilen des Eingabe-Bildes verarbeiten. Die Anteile des Eingabe-Bildes werden dann nicht isoliert voneinander verarbeitet, sondern in ihrem jeweiligen Kontext, vergleichbar mit Wörtern in einem vollständigen Satz.
In einer weiteren vorteilhaften Ausgestaltung werden ausgehend von mehreren Zusammenstellungen zu prüfender Anteile des Eingabe-Bildes jeweils Relevanz-Scores für diese zu prüfenden Anteile des Eingabe-Bildes ermittelt. Für jeden Anteil des Eingabe-Bildes werden die Relevanz-Scores über alle Zusammenstellungen zu prüfender Anteile, in denen dieser Anteil vorkommt, aggregiert. Hieraus ist ersichtlich, wie wichtig ein jeder zu prüfender Anteil des Eingabe-Bildes im Mittel über die mehreren Zusammenstellungen ist. Auf diese Weise lässt sich eine Relevanzkarte (saliency map) des Eingabe-Bildes ermitteln.
In einer weiteren vorteilhaften Ausgestaltung wird eine Zusammenstellung zu prüfender Anteile des Eingabe-Bildes anhand der für diese Anteile ermittelten Relevanz-Scores auf das Ziel optimiert, dass eine vorgegebene Wirkung auf das Test-Ergebnis durch das Nichtberücksichtigen einer möglichst geringen Anzahl von Anteilen des Eingabe-Bildes erzielt wird. Auf diese Weise kann eine minimalinvasivste Veränderung des Eingabe-Bildes aufgefunden werden, die ausreicht, um die Entscheidung des Transformer-Netzwerks in Bezug auf dieses Eingabe-Bild in signifikanter Weise zu ändern und beispielsweise eine Zuordnung des Eingabe-Bildes zu einer anderen Klasse zu bewirken.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zur Messung, welche Anteile la-li eines Eingabe-Bildes 1 für ein neuronales Transformer-Netzwerk 2 entscheidungsrelevant sind;
2 Beispielhafte Anwendung des Verfahrens 100 in der Qualitätskontrolle.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100. Mit diesem Verfahren 100 wird bestimmt, welche Anteile la-li eines Eingabe-Bildes 1 für ein neuronales Transformer-Netzwerk 2 entscheidungsrelevant sind. Das verwendete Transformer-Netzwerk 2 weist eine Beziehungseinheit 21 auf, die das Eingabe-Bild 1 anhand von Wechselbeziehungen zwischen unterschiedlichen Anteilen la-li des Eingabe-Bildes 1 zu einem Zwischenprodukt 3 verarbeitet. Das Transformer-Netzwerk 2 weist weiterhin mindestens eine Aufgabeneinheit 22 auf, die das Zwischenprodukt 3 zu einem Ergebnis 4 im Hinblick auf die an das Transformer-Netzwerk 2 gestellte Aufgabe verarbeitet.
Das Verfahren geht davon aus, dass einer oder mehrere der Anteilen la-li des Eingabe-Bildes 1 als zu prüfende Anteile 1* des Eingabe-Bildes 1 vorgegeben sind. In Schritt 110 des Verfahrens 100 wird die Beziehungseinheit 21 veranlasst, Wechselbeziehungen zwischen dem oder den zu prüfenden Anteilen 1* des Eingabe-Bildes 1 und den übrigen Anteilen la-li des Eingabe-Bildes 1 bei der Bildung des Zwischenprodukts 3 unberücksichtigt zu lassen und so ein Test-Zwischenprodukt 3* zu erstellen. Wie zuvor erläutert, hat dies die Wirkung, dass der Einfluss des oder der zu prüfenden Anteile 1* im Test-Zwischenprodukt 3* unterdrückt wird, ohne dass hierfür das Eingabe-Bild 1 verändert wird. Der Verarbeitungsprozess im Transformer-Netzwerk 2 wird auch nur insoweit verändert, wie dies zur Unterdrückung des Einflusses des oder der zu prüfenden Anteile 1* wirklich notwendig ist.
In Schritt 120 wird das Test-Zwischenprodukt 3* mit der Aufgabeneinheit 22 zu einem Test-Ergebnis 4* verarbeitet, das beispielsweise Klassifikations-Scores in Bezug auf eine oder mehrere Klassen enthalten kann.
In Schritt 130 wird das Test-Ergebnis 4* mit einem unter Berücksichtigung aller Anteile la-li des Eingabe-Bildes 1 ermittelten Ergebnis 4 verglichen.
In Schritt 140 wird aus dem Ergebnis 130a des Vergleichs 130 mindestens ein Relevanz-Score 5 ausgewertet. Dieser Relevanz-Score 5 ist ein Maß dafür, inwieweit der oder die zu prüfenden Anteile 1* des Eingabe-Bildes 1 für das Ergebnis 4 relevant sind.
In dieser Weise ermittelte Relevanz-Scores 5 können in Schritt 150 als Feedback genutzt werden, um eine Zusammenstellung zu prüfender Anteile 1* des Eingabe-Bildes 1 auf das Ziel zu optimieren, dass eine vorgegebene Wirkung auf das Test-Ergebnis 4* durch das Nichtberücksichtigen einer möglichst geringen Anzahl von Anteilen la-li des Eingabe-Bildes 1 erzielt wird. Die vorgegebene Wirkung kann beispielsweise eine Änderung gegenüber dem unter Berücksichtigung aller Anteile la-li des Eingabe-Bildes erzielten Ergebnis 4 umfassen. Die auf diese Weise ermittelten minimalen Anteile des Eingabe-Bildes 1, die zur Erzielung der vorgegebenen Wirkung auf das Test-Ergebnis 4* erforderlich sind, sind mit dem Bezugszeichen 1** bezeichnet.
Alternativ oder in Kombination hierzu kann in Schritt 160 mindestens ein Relevanz-Score 5 für einen Anteil 1* des Eingabe-Bildes 1 gegen eine vorgegebene Zusatzinformation 6 hinsichtlich der Relevanz dieses Anteils 1* plausibilisiert werden. In Schritt 170 kann dann anhand des Ergebnisses 160a dieser Plausibilisierung 160 eine Verlässlichkeit 7 des vom neuronalen Transformer-Netzwerk 2 gelieferten Ergebnisses 4 in Bezug auf das Eingabe-Bild 1 ermittelt werden.
Die Verlässlichkeit 7 kann wiederum in Schritt 180 herangezogen werden, um ein Ansteuersignal 8 für ein Fahrzeug 50, für ein System 60 zur Qualitätskontrolle gefertigter Produkte, und/oder für ein System 70 zur Überwachung von Bereichen, zu ermitteln. Das Fahrzeug 50, das System 60 zur Qualitätskontrolle, und/oder das System 70 zur Überwachung von Bereichen, kann dann in Schritt 190 mit dem Ansteuersignal 8 angesteuert werden.
Gemäß Block 121 kann das neuronale Transformer-Netzwerk 2 als Bildklassifikator ausgebildet sein, dessen Aufgabeneinheit 22 das Zwischenprodukt 3, bzw. das Test-Zwischenprodukt 3*, jeweils auf einen oder mehrere Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation als Ergebnis 4, bzw. Test-Ergebnis 4*, abbildet. Es kann dann in Block 131 geprüft werden, ob mindestens ein unter Berücksichtigung aller Anteile la-li des Eingabe-Bildes 1 ermittelter Klassifikations-Score auf einer Seite eines vorgegebenen Schwellwerts liegt und zugleich der hierzu korrespondierende Klassifikations-Score aus dem Test-Ergebnis auf der anderen Seite des vorgegebenen Schwellwerts liegt. Wenn dies der Fall ist (Wahrheitswert 1), kann gemäß Block 141 festgestellt werden, dass der oder die zu prüfenden Anteile 1* des Eingabe-Bildes 1 für die Entscheidung des Bildklassifikators relevant sind.
2 illustriert eine beispielhafte Anwendung des Verfahrens in der Qualitätskontrolle gefertigter Produkte. Das Eingabe-Bild 1, das in neun nicht überlappende Anteile (Patches) la-li unterteilt ist, zeigt eine Schraubenmutter 10 mit einem Gewinde 11 in der Mitte. Diese Schraubenmutter 10 hat einen Riss 12, der sich vom unteren Rand bis zum Gewinde 11 erstreckt. Das Eingabe-Bild wird im Transformer-Netzwerk 2 zunächst von der Beziehungseinheit 21 zu einem Zwischenprodukt 3 verarbeitet, und dieses Zwischenprodukt wird von der Aufgabeneinheit 22 zum Ergebnis 4 weiterverarbeitet. Das Ergebnis 4 ist in diesem Beispiel eine binäre Klassifikation mit den Klassen „OK“ und „nicht OK = NOK“.
Wenn in dem in 2 gezeigten Beispiel die Information aus allen Anteilen la-li des Eingabe-Bildes 1 berücksichtigt wird, wird das Eingabe-Bild 1 auf Grund des Risses 12 in die Klasse „NOK“ eingestuft. Hieran ändert sich nichts, wenn einer oder mehrere der zum Bildhintergrund gehörenden Anteile 1a-1c des Eingabe-Bildes 1 als zu prüfende Anteile 1* des Eingabe-Bildes festgelegt werden und deren Einfluss in der Beziehungseinheit 21 unterdrückt wird. Auch wenn der Einfluss eines oder mehrerer der Anteile 1d, 1f, 1g oder 1i unterdrückt wird, wechselt das aus dem dann erhaltenen Test-Zwischenprodukt 3* ermittelte Test-Ergebnis 4* nicht in die Klasse „OK“.
Selbst wenn der Einfluss eines der beiden Anteile 1e und 1h mit dem Riss 12 unterdrückt wird, wechselt das Test-Ergebnis 4* noch nicht in die Klasse „OK“. Nur wenn der Riss 12 durch Nichtberücksichtigen von Information aus beiden Anteilen 1e und 1h vor der Aufgabeneinheit 22 „versteckt“ wird, wird das Eingabe-Bild 1 in die Klasse „OK“ eingestuft. Somit ist jeder der beiden Anteile 1e und 1h für sich genommen entscheidungsrelevant für die Einstufung des Eingabe-Bildes 1 in die Klasse „NOK“.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2018/197074 A1 [0003]

Claims

Verfahren (100) zur Messung, welche Anteile (1a-1i) eines Eingabe-Bildes (1) für das Ergebnis (4) einer automatisierten Verarbeitung dieses Bildes (1) mit einem neuronalen Transformer-Netzwerk (2) maßgeblich sind, wobei dieses neuronale Transformer-Netzwerk (2) • mindestens eine Beziehungseinheit (21), die das Eingabe-Bild (1) anhand von Wechselbeziehungen zwischen unterschiedlichen Anteilen (1a-1i) des Eingabe-Bildes (1) zu einem Zwischenprodukt (3) verarbeitet, und • mindestens eine Aufgabeneinheit (22), die das Zwischenprodukt (3) zu einem Ergebnis (4) im Hinblick auf die an das Transformer-Netzwerk (2) gestellte Aufgabe verarbeitet, aufweist, mit den Schritten: • die Beziehungseinheit (21) wird veranlasst (110), Wechselbeziehungen zwischen einem oder mehreren zu prüfenden Anteilen (1*) des Eingabe-Bildes (1) und den übrigen Anteilen (1a-1i) des Eingabe-Bildes (1) bei der Bildung des Zwischenprodukts (3) unberücksichtigt zu lassen und so ein Test-Zwischenprodukt (3*) zu erstellen; • mit der Aufgabeneinheit (22) wird das Test-Zwischenprodukt (3*) zu einem Test-Ergebnis (4*) verarbeitet (120); • das Test-Ergebnis (4*) wird mit einem unter Berücksichtigung aller Anteile (1a-1i) des Eingabe-Bildes (1) ermittelten Ergebnis (4) verglichen (130); • aus dem Ergebnis (130a) dieses Vergleichs (130) wird mindestens ein Relevanz-Score (5) ausgewertet (140), der ein Maß dafür ist, inwieweit der oder die zu prüfenden Anteile (1*) des Eingabe-Bildes (1) für das Ergebnis (4) relevant sind.
Verfahren (100) nach Anspruch 1, wobei das neuronale Transformer-Netzwerk (2) ein Bildklassifikator ist, dessen Aufgabeneinheit (22) das Zwischenprodukt (3), bzw. das Test-Zwischenprodukt (3*), jeweils auf einen oder mehrere Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation als Ergebnis (4), bzw. Test-Ergebnis (4*), abbildet (121).
Verfahren (100) nach Anspruch 2, wobei in Antwort darauf, dass mindestens ein unter Berücksichtigung aller Anteile (1a-1i) des Eingabe-Bildes (1) ermittelter Klassifikations-Score auf einer Seite eines vorgegebenen Schwellwerts liegt und der hierzu korrespondierende Klassifikations-Score aus dem Test-Ergebnis auf der anderen Seite des vorgegebenen Schwellwerts liegt (131), festgestellt wird (141), dass der oder die zu prüfenden Anteile (1*) des Eingabe-Bildes (1) für die Entscheidung des Bildklassifikators relevant sind.
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Beziehungseinheit (21) ein Zwischenprodukt (3) mit Beiträgen erzeugt, die jeweils von einem Anteil (1a-1i) des Eingabe-Bildes (1) sowie einer Aggregation weiterer Anteile (1a-3h) des Eingabe-Bildes (1) abhängt.
Verfahren (100) nach Anspruch 4, wobei die Aggregation eine gewichtete Summe der weiteren Anteile (1a-1i) des Eingabe-Bildes (1) beinhaltet.
Verfahren (100) nach einem der Ansprüche 4 bis 5, wobei die Beiträge elementweise Produkte des einen Anteils (1a-1i) des Eingabe-Bildes (1) mit der Aggregation beinhalten.
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei die Beziehungseinheit (21) eine lineare Sequenz von Anteilen (1a-1i) des Eingabe-Bildes (1) verarbeitet.
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei die Anteile (1a-1i) des Eingabe-Bildes (1) zu nicht überlappenden räumlichen Teilbereichen des Eingabe-Bildes (1) korrespondieren.
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei • ausgehend von mehreren Zusammenstellungen zu prüfender Anteile (1*) des Eingabe-Bildes (1) jeweils Relevanz-Scores (5) für diese zu prüfenden Anteile (1*) des Eingabe-Bildes (1) ermittelt werden (142) und • für jeden Anteil (1a-1i) des Eingabe-Bildes (1) die Relevanz-Scores (5) über alle Zusammenstellungen zu prüfender Anteile (1*), in denen dieser Anteil (1a-1i) vorkommt, aggregiert werden (143).
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei eine Zusammenstellung zu prüfender Anteile (1*) des Eingabe-Bildes (1) anhand der für diese Anteile (1*) ermittelten Relevanz-Scores (5) auf das Ziel optimiert wird (150), dass eine vorgegebene Wirkung auf das Test-Ergebnis (4*) durch das Nichtberücksichtigen einer möglichst geringen Anzahl von Anteilen (1a-1i) des Eingabe-Bildes (1) erzielt wird.
Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei • mindestens ein Relevanz-Score (5) für einen Anteil (1*) des Eingabe-Bildes (1) gegen eine vorgegebene Zusatzinformation (6) hinsichtlich der Relevanz dieses Anteils (1*) plausibilisiert wird (160) und • anhand des Ergebnisses (160a) dieser Plausibilisierung (160) eine Verlässlichkeit (7) des vom neuronalen Transformer-Netzwerk (2) gelieferten Ergebnisses (4) in Bezug auf das Eingabe-Bild (1) ermittelt wird (170).
Verfahren (100) nach Anspruch 11, wobei • unter Heranziehung der ermittelten Verlässlichkeit (7) wird ein Ansteuersignal (8) für ein Fahrzeug (50), für ein System (60) zur Qualitätskontrolle gefertigter Produkte, und/oder für ein System (70) zur Überwachung von Bereichen, ermittelt (180); und • das Fahrzeug (50), das System (60) zur Qualitätskontrolle, und/oder das System (70) zur Überwachung von Bereichen, wird mit dem Ansteuersignal (8) angesteuert (190).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.