DE102020207324A1

DE102020207324A1 - Plausibilisierung der Ausgabe eines Bildklassifikators mit einem Generator für abgewandelte Bilder

Info

Publication number: DE102020207324A1
Application number: DE102020207324.4A
Authority: DE
Inventors: Andres Mauricio Munoz Delgado
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2021-12-16
Also published as: US20210390337A1; CN113807382A

Abstract

Verfahren (100) zur Plausibilisierung der Ausgabe eines Bildklassifikators (2), der ein Eingabebild (1) einer oder mehreren Klassen (3a-3c) einer vorgegebenen Klassifikation zuordnet, mit den Schritten:• für das Eingabebild (1) wird mit dem Bildklassifikator (2) eine Zuordnung zu einer oder mehreren Klassen (3a-3c) ermittelt (110);• mit einer vorgegebenen Relevanzbewertungsfunktion (4) wird eine ortsaufgelöste Relevanzbewertung (1a) des Eingabebildes (1) ermittelt (120), die angibt, welche Anteile (1b, 1c) des Eingabebildes (1) in welchem Maße zu der Zuordnung zu einer oder mehreren Klassen (3a-3c) beigetragen haben;• ein Generator (6) wird darauf trainiert (130), Abwandlungen (7) des Eingabebildes (1) zu erzeugen, die nach Maßgabe einer vorgegebenen Kostenfunktion möglichst gut sind im Hinblick auf die Optimierungsziele, dass sie◯ einerseits in einem durch die Relevanzbewertungsfunktion (4) als für die Klassenzuordnung weniger relevant eingestuften Anteil (1b) möglichst wenig verändert sind und◯ andererseits vom Bildklassifikator (2) anders klassifiziert werden als das Eingabebild (1);• anhand des Ergebnisses des Trainings (130), und/oder anhand von durch den trainierten Generator (6) gelieferten Abwandlungen (7), wird ein Gütemaß (1a*) für die ortsaufgelöste Relevanzbewertung (1a), und/oder ein Gütemaß (4*) für die Relevanzbewertungsfunktion (4), ermittelt (140).

Description

Die vorliegende Erfindung betrifft die Kontrolle des Verhaltens trainierbarer Bildklassifikatoren, die beispielsweise für die Qualitätskontrolle von in Serie gefertigten Produkten genutzt werden können.
Stand der Technik
Bei der Serienfertigung von Produkten ist es in der Regel erforderlich, die Qualität der Fertigung laufend zu überprüfen. Dabei wird angestrebt, Qualitätsprobleme möglichst schnell zu erkennen, um die Ursache baldmöglichst beheben zu können und nicht zu viele Einheiten des jeweiligen Produkts als Ausschuss zu verlieren.
Die optische Kontrolle der Geometrie und/oder Oberfläche eines Produkts ist schnell und zerstörungsfrei. Die WO 2018/197 074 A1 offenbart eine Prüfvorrichtung, in der ein Objekt einer Vielzahl von Beleuchtungssituationen ausgesetzt werden kann, wobei in jeder dieser Beleuchtungssituationen mit einer Kamera Bilder des Objekts aufgezeichnet werden. Aus diesen Bildern wird die Topographie des Objekts ausgewertet.
Bilder des Produkts können auch unmittelbar mit einem Bildklassifikator auf der Basis künstlicher neuronaler Netzwerke einer von mehreren Klassen einer vorgegebenen Klassifikation zugeordnet werden. Auf dieser Basis kann das Produkt einer von mehreren vorgegebenen Qualitätsklassen zugeordnet werden. Im einfachsten Fall ist diese Klassifikation binär („OK“/ „nicht OK“).
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Plausibilisierung der Ausgabe eines Bildklassifikators entwickelt.
Der Bildklassifikator ordnet ein Eingabebild einer oder mehreren Klassen einer vorgegebenen Klassifikation zu. Als Eingabebilder können beispielsweise Bilder von in Serie gefertigten, nominell identischen Produkten verwendet werden. Der Bildklassifikator kann beispielsweise darauf trainiert sein, die Eingabebilder einer oder mehreren von mindestens zwei möglichen Klassen zuzuordnen, die eine Qualitätsbeurteilung des jeweiligen Produkts repräsentieren.
Beispielsweise kann ein Produkt anhand eines Bildes binär als „OK“ oder „nicht OK“ (NOK) klassifiziert werden. Möglich und sinnvoll kann beispielsweise auch eine Einteilung in eine Klassifikation sein, die mehr Zwischenstufen zwischen „OK“ und „nicht OK“ umfasst.
Der Begriff des Bildes umfasst grundsätzlich jede in einem zwei- oder mehrdimensionalen Raster angeordnete Verteilung von Informationen. Diese Informationen können beispielsweise Intensitätswerte von Bildpixeln sein, die mit einer beliebigen Abbildungsmodalität, wie etwa mit einer optischen Kamera, mit einer Wärmebildkamera oder mit Ultraschall, aufgenommen wurden. Es können jedoch auch beliebige andere Daten, wie beispielsweise Audiodaten, Radardaten oder LIDAR-Daten, in Bilder übersetzt und dann gleichermaßen klassifiziert werden.
Bei dem Verfahren wird für ein konkretes Eingabebild mit dem Bildklassifikator eine Zuordnung zu einer oder mehreren Klassen ermittelt. Mit einer vorgegebenen Relevanzbewertungsfunktion wird eine ortsaufgelöste Relevanzbewertung des Eingabebildes ermittelt. Diese ortsaufgelöste Relevanzbewertung gibt an, welche Anteile des Eingabebildes in welchem Maße zu der Zuordnung zu einer oder mehreren Klassen beigetragen haben. Sie kann beispielsweise jedem Pixel des Eingabebildes einen Intensitätswert zuordnen, der zu der Relevanz für die Klassenzuordnung korrespondiert, und wird daher auch als „heat map“ bezeichnet.
Es wird nun ein Generator darauf trainiert, Abwandlungen des Eingabebildes zu erzeugen, die nach Maßgabe einer vorgegebenen Kostenfunktion möglichst gut sind im Hinblick auf die Optimierungsziele, dass sie

• einerseits in einem durch die Relevanzbewertungsfunktion als für die Klassenzuordnung weniger relevant eingestuften Anteil möglichst wenig verändert sind und
• andererseits vom Bildklassifikator anders klassifiziert werden als das Eingabebild.

Der Wunsch nach einer möglichst geringen Veränderung im weniger relevanten Anteil kann sich in dieser Kostenfunktion beispielsweise als Norm über die Veränderung in dem weniger relevanten Anteil manifestieren. Der Wunsch nach einer Änderung der Klassifikation kann mit einem beliebigen Maß für die Differenz zwischen den Klassenzuordnungen in die Kostenfunktion eingebracht werden, wobei die Klassenzuordnungen beispielsweise auch Vektoren sein können. Wenn es sich bei den Klassenzuordnungen um diskrete, kategorische Variablen handelt, kann die Differenz insbesondere mittels der (binären) Kreuzentropie gemessen werden. Bei kontinuierlichen Variablen kann hingegen beispielsweise eine quadratische Abweichung ermittelt werden.
Der Generator liefert idealerweise Abwandlungen des Eingabebildes, die im Vergleich zum Eingabebild nur an denjenigen Stellen verändert worden sind, die durch die ortsaufgelöste Relevanzbewertung zuvor als relevant für die Klassenzuordnung bewertet wurden. Wenn diese Relevanzbewertung stimmt, bedeutet dies im Umkehrschluss, dass die Klassenzuordnung geändert werden kann, indem das Eingabebild genau in den relevanten Bereichen verändert wird.
Dabei bewirkt das Zusammenfassen der genannten Optimierungsziele in einer Kostenfunktion, dass die Optimierungsziele in beliebiger Weise gegeneinander gewichtet werden können. Insbesondere können harte Randbedingungen, die zur Bildung unrealistischer Artefakte in den Abwandlungen führen könnten, vermieden werden. Es ist also beispielsweise möglich, dass eine Abwandlung, die vom Bildklassifikator sehr stark anders klassifiziert wird als das Eingabebild, sich im Ausgleich hierfür den „Patzer“ leisten kann, dass sie auch einige weniger relevante Pixel des Eingabebildes abändert.
Die Forderung, dass der als weniger relevant eingestufte Anteil des Eingabebildes möglichst wenig verändert wird, bewirkt dann jedoch nach wie vor, dass der Generator speziell das Erzeugen von in Bezug auf die konkrete Anwendung realistischen Abwandlungen des Eingabebildes lernt. So lässt sich beispielsweise aus der Tatsache, dass sich die Klassenzuordnung des Eingabebildes durch Einfügen eines artifiziellen, auf realen Kamerabildern nicht zu erwartenden Pixelmusters verändern lässt, nur schwer eine für die besagte optische Qualitätskontrolle hilfreiche Aussage herleiten. Wenn die Abwandlung hingegen beispielsweise einen im Eingabebild sichtbaren Riss oder anderen Defekt zum Verschwinden bringt und man sie sich als reales Kamerabild eines mangelfreien Produkts vorstellen könnte, dann deutet ein Klassenwechsel von „nicht OK“ zu „OK“ darauf hin, dass der Bildklassifikator genau die richtigen Bildbereiche für die Beurteilung der Qualität heranzieht.
Anhand des Ergebnisses des Trainings, und/oder anhand von durch den trainierten Generator gelieferten Abwandlungen, wird ein Gütemaß für die ortsaufgelöste Relevanzbewertung, und/oder ein Gütemaß für die dieser Relevanzbewertung zu Grunde liegende Relevanzbewertungsfunktion, ermittelt.
Die Relevanzbewertungsfunktion ist für die jeweils vorliegende Anwendung des Bildklassifikators spezifisch. Die von ihr gelieferte ortsaufgelöste Relevanzbewertung kann in vielfältiger Weise genutzt werden, um die Ausgabe des Bildklassifikators im Hinblick auf diese Anwendung zu plausibilisieren.
So kann beispielsweise bei der Qualitätskontrolle von in Serie gefertigten Produkten für bestimmte Kombinationen aus einem Eingabebild und einer Zuordnung stichprobenartig überprüft werden, ob zu der Entscheidung, ein Produkt mit dem Qualitätsurteil „nicht OK“ zu belegen, tatsächlich ein Mangel oder Schaden geführt hat, der gemäß der Spezifikation der konkreten Anwendung zu diesem Qualitätsurteil führen soll.
Wenn der Bildklassifikator zur Erkennung von Objekten eingesetzt wird, dann kann die ortsaufgelöste Relevanzbewertung genutzt werden, um zu prüfen, ob zur Erkennung eines bestimmten Objekts nur Bildbereiche beigetragen haben, die tatsächlich zu diesem Objekt gehören. Wenn beispielsweise ein Eingabebild dahingehend klassifiziert worden ist, dass es einen PKW zeigt, diese Entscheidung aber auf Grund von Bildbereichen getroffen worden ist, die etwa einen Baum zeigen, dann ist diese Zuordnung überhaupt nicht einsichtig. Selbst wenn das Bild an anderer Stelle tatsächlich einen PKW zeigt, ist die Quintessenz dennoch, dass Bildbereiche, die einen Baum zeigen, fälschlicherweise als PKW klassifiziert worden sind. Bei komplexen Szenerien mit einer Vielzahl von Objekten ist daher zu befürchten, dass die Menge der Objekte, die insgesamt in einem Bild der Szenerie erkannt wird, am Ende nicht deckungsgleich ist mit der Menge der Objekte, die tatsächlich in der Szenerie vorhanden sind.
Die hier anschaulich als Stichprobenkontrolle dargestellte Auswertung der ortsaufgelösten Relevanzbewertung kann auch in beliebiger Weise maschinell erfolgen, so dass eine 100-%-Kontrolle aller vom Bildklassifikator ausgegebenen Zuordnungen realisiert werden kann.
Die Glaubwürdigkeit einer solchen Kontrolle hängt jedoch entscheidend daran, dass die Relevanzbewertungsfunktion für die jeweilige Anwendung zutreffend ist. In der Literatur sind viele solche Relevanzbewertungsfunktionen bekannt, die jeweils für bestimmte Anwendungen entwickelt wurden. Eine mathematische Garantie dafür, dass eine konkrete Relevanzbewertungsfunktion für eine konkrete Anwendung zutreffend ist, gibt es a priori nicht.
Das gemäß dem Verfahren ermittelte quantitative Gütemaß ermöglicht es, eine beliebige vorgegebene Relevanzbewertungsfunktion als für eine konkrete vorgesehene Anwendung passend zu validieren. Auf diese Weise wird es insbesondere möglich, die Relevanzbewertungsfunktion stärker nach dem Aspekt der benötigten Rechenzeit auszuwählen. Vielfach sind hier der Wunsch nach hoher Effizienz in Bezug auf Rechenzeit einerseits und eine leichte Interpretierbarkeit der Ergebnisse andererseits gegenläufige Ziele. Daher wurden bislang einige hocheffizient zu berechnende Relevanzbewertungsfunktionen nur deshalb nicht genutzt, weil nicht mit hinreichender Sicherheit garantiert werden konnte, dass sie auf die konkrete Anwendung passen. Eine hohe Effizienz ist aber gerade bei der Qualitätskontrolle von in Serie gefertigten Produkten wichtig, damit die pro Produkt benötigte Rechenzeit für die Qualitätskontrolle noch in einem angemessenen Verhältnis zum benötigten Zeitaufwand für die eigentliche Fertigung des Produkts steht. Das Gütemaß ermöglicht es also im Endeffekt, die ständige Kontrolle des Verhaltens des Bildklassifikators, und damit auch die Qualitätskontrolle insgesamt, zu beschleunigen.
Wie im Folgenden weiter erläutert wird, sind darüber hinaus auch die mit dem Verfahren erzeugten Abwandlungen des Eingabebildes selbst eine wichtige und unmittelbar interpretierbare Informationsquelle, mit der das Verhalten des Bildklassifikators erklärt und das Training des Bildklassifikators verbessert werden kann.
Mit dem Verfahren wird die Kontrolle, ob der Bildklassifikator für die Klassenzuordnung tatsächlich die aus Sicht der Anwendung relevanten Bereiche heranzieht, objektiviert. Im Gegensatz zu einer visuellen Kontrolle lässt sich das Verfahren nicht dadurch „täuschen“, dass in dem Eingabebild weniger relevante Merkmale möglicherweise mit größerem Kontrast oder in sonstiger Weise qualitativ besser wiedergegeben sind. So kann sich beispielsweise ein Riss, der im Eingabebild sehr gut zu erkennen ist, an einer Stelle des Produkts befinden, die für die mechanische Festigkeit des Produkts nicht kritisch ist. Ein solcher Riss ist für die Qualität des Produkts von untergeordneter Bedeutung. Hingegen kann sich ein Riss, der im Eingabebild nur schwer zu erkennen ist, an einer Stelle befinden, an der er sich bei mechanischer Beanspruchung des Produkts weiter ausbreiten und schließlich zum Versagen des Produkts führen wird. Ein solcher Riss ist für die Qualität des Produkts von großer Bedeutung.
Der Generator kann insbesondere dazu ausgebildet sein, Eingaben z aus einem Eingaberaum in Abwandlungen zu übersetzen, die dem Raum der Eingabebilder angehören. Der Eingaberaum kann insbesondere die gleiche Dimensionalität haben wie der Raum der Eingabebilder, d.h., die Eingaben z können die gleiche Pixelauflösung aufweisen wie die Eingabebilder. Dies ist jedoch nicht zwingend notwendig. Parameter, die das Verhalten des Generators charakterisieren, können optimiert werden mit dem Ziel, dass die dann vom Generator gelieferten Abwandlungen im Hinblick auf die genannten Optimierungsziele verbessert werden. Für diese Optimierung kann ein beliebiges Parameteroptimierungsverfahren genutzt werden, wie beispielsweise ADAM oder ein Gradientenabstiegsverfahren. Für gradientenbasierte Verfahren ist lediglich wichtig, dass die Kostenfunktion nach den Parametern des Generators differenzierbar ist. Daneben gibt es aber noch gradientenfreie Optimierungsalgorithmen, wie etwa genetische Algorithmen. Diese Algorithmen setzen nicht voraus, dass der Generator differenzierbar ist.
Die Eingaben z können beispielsweise aus Gaußschem Rauschen oder einer anderen Zufallsverteilung gezogen werden. Sie können jedoch ebenfalls Gegenstand der Optimierung sein. Das Ergebnis der Optimierung ist dann ein Paar aus einem optimalen Generator und einer optimalen Eingabe z*, bezogen auf ein konkretes Eingabebild.
In einer besonders vorteilhaften Ausgestaltung werden ausgehend von optimalen Parametern, sowie optional auch ausgehend von einer optimalen Eingabe z*, weitere Abwandlungen ermittelt werden, indem

• Parameter aus einer Zufallsverteilung um das Optimum herum gezogen werden; und/oder
• die Optimierung der Parameter ausgehend von anderen Startwerten wiederholt wird.

Für ein auf diese Weise erhaltenes Ensemble von Abwandlungen können zusammenfassende Statistiken bestimmt werden. Derartige Statistiken können wiederum in das Gütemaß für die Relevanzbewertung, bzw. in das Gütemaß für die Relevanzbewertungsfunktion, eingehen.
In einer weiteren besonders vorteilhaften Ausgestaltung wird das Optimierungsziel, dass die Abwandlungen vom Bildklassifikator anders klassifiziert werden als das Eingabebild, im Verhältnis zu dem Optimierungsziel, dass der als für die Klassenzuordnung weniger relevant eingestufte Anteil möglichst wenig verändert wird, gerade so hoch gewichtet wird, dass die Abwandlungen tatsächlich vom Bildklassifikator anders klassifiziert werden als das Eingabebild. Die Kostenfunktion kann beispielsweise eine Summe zweier Terme enthalten, die sich auf beide Optimierungsziele beziehen. Die relative Gewichtung beider Terme zueinander kann beispielsweise über einen linearen Parameter eingestellt werden. Daneben kann das Training noch in beliebiger Weise, etwa mit weiteren Termen in der Kostenfunktion oder durch Vorgabe von Randbedingungen während des Trainings, darauf gerichtet sein, dass die vom Generator ausgegebenen Lösungen realistisch sind. Auf diese Weise können beispielsweise „adversarial examples“ als Lösungen ausgeschlossen werden.
Wenn der Term, der sich auf die Klassenzuordnung bezieht, nur so hoch wie nötig gewichtet wird, wird für die Optimierung ein größerer Anreiz geschaffen, darauf zu achten, dass möglichst nur die als relevant eingestuften Bereiche des Eingabebildes abgeändert werden.
In einer weiteren besonders vorteilhaften Ausgestaltung werden in der vom Generator gelieferten Abwandlung Änderungen in dem durch die Relevanzbewertungsfunktion als für die Klassenzuordnung weniger relevant eingestuften Anteil des Eingabebildes nachträglich unterdrückt. Auf diese Weise ist sichergestellt, dass die durch die Abwandlung bewirkte Änderung der Klassenzuordnung ausschließlich durch Änderungen in dem Anteil des Eingabebildes bewirkt wird, der in der ortsaufgelösten Relevanzbewertung als relevanter bewertet wurde.
Wie zuvor erläutert, wird der Generator speziell für ein konkretes Eingabebild trainiert. Der Generator ist also für ein neues Eingabebild erneut zu trainieren. Speziell bei der Qualitätskontrolle von in Serie gefertigten Produkten sind jedoch die Eingabebilder nominell sehr ähnlich. Daher kann in einer weiteren besonders vorteilhaften Ausgestaltung der Generator in Bezug auf ein Eingabebild ausgehend von einem für ein früheres Eingabebild bereits trainierten Generator trainiert werden. Wenn für den früher trainierten Generator auch eine Eingabe z optimiert wurde, kann auch die optimierte Eingabe z* beim neuen Training als Ausgangspunkt für die Optimierung der neuen Eingabe z dienen. Es kann also ein großer Teil des zuvor absolvierten Trainings wiederverwendet werden. Das Training immer wieder neuer Generatoren für immer neue Eingabebilder kann dann nicht mehr nur im Zuge der Validierung einer Relevanzbewertungsfunktion erfolgen, sondern schnell genug werden, um auch während der laufenden Qualitätskontrolle fortgeführt zu werden.
Die Unterteilung des Eingabebildes in einem für die Klassenzuordnung weniger relevanten Anteil und in einen für die Klassenzuordnung relevanteren Anteil kann fließend erfolgen, etwa mit einem stetig veränderlichen Relevanzmaß, das einem jeden Pixel des Eingabebildes zugewiesen ist. In einer besonders vorteilhaften Ausgestaltung wird das Eingabebild jedoch anhand eines Vergleichs der ortsaufgelösten Relevanzbewertung mit einem vorgegebenen Schwellwert binär in einen für die Klassenzuordnung weniger relevanten Anteil und in einen für die Klassenzuordnung relevanteren Anteil unterteilt. Diese Anteile können dann jeweils durch elementweise Multiplikation mit binären Masken aus dem Eingabebild ermittelt und mit weiteren Matrixoperationen en bloc besonders schnell verarbeitet werden. Die weiteren Berechnungen mit diesen Anteilen können dann insbesondere beispielsweise von Beschleunigungsmechanismen profitieren, die Multiplikationen, bei denen ein Faktor Null ist, komplett eingespart werden.
Es ist nicht garantiert, dass das Training des Generators in jedem Fall auf Abwandlungen führt, die vom Bildklassifikator anders klassifiziert werden als das Eingabebild. Wenn beispielsweise ein Produkt mehrere Mängel oder Schäden aufweist, von denen jeder einzelne für sich genommen schon zum Qualitätsurteil „nicht OK“ für das Produkt führt, dann kann der Bildklassifikator bei seiner Entscheidungsfindung beispielsweise bevorzugt auf denjenigen Mangel bzw. Schaden „einrasten“, der im Eingabebild am einfachsten zu erkennen ist. Es ist dann eine korrekte Aussage, dass dieser Mangel bzw. Schaden ursächlich für das Qualitätsurteil „nicht OK“ war. Wenn nun eine Abwandlung erzeugt wird, die speziell diesen Mangel bzw. Schaden zum Verschwinden bringt, kann der nächste Mangel bzw. Schaden tonangebend werden und dazu führen, dass die Abwandlung nach wie vor als „nicht OK“ klassifiziert wird. Daran ändert sich auch durch noch so intensives und gutes Training des Generators nichts mehr, denn die vorherige Festlegung, dass speziell der erste Mangel bzw. Schaden relevant ist, engt die Veränderung in der Abwandlung genau hierauf ein.
Analoges kann beispielsweise bei der Erkennung von Fußgängern passieren. Hier kann die Erkennung des Bildklassifikators beispielsweise auf das Gesicht „einrasten“, während aber der Fußgänger auch nach dem Entfernen des Gesichts in der Abwandlung noch anhand seiner Arme, seiner Beine oder seines Torsos als solcher erkannt werden kann.
Wenn also der Generator auch nach Abschluss des Trainings noch Abwandlungen liefert, die noch der oder den gleichen Klassen zugeordnet werden wie das Eingabebild, kann dies ein Hinweis darauf sein, dass der ausweislich der ortsaufgelösten Relevanzbewertung relevantere Anteil des Eingabebildes noch nicht die komplette Information erfasst, die die ursprüngliche Klassenzuordnung des Eingabebildes stützt.
Um auch die restliche Information zu erfassen, die diese Klassenzuordnung stützt, kann beispielsweise das Verfahren iterativ neu gestartet werden, wobei nun die Abwandlung als Eingabebild dient. In dem genannten Beispiel zur Qualitätskontrolle wird dann also der Bereich mit dem besagten weiteren Mangel bzw. Schaden als relevant für die Klassenzuordnung eingestuft, und der neue Generator arbeitet darauf hin, genau diesen Mangel bzw. Schaden zu beseitigen.
Alternativ oder in Kombination hierzu kann beispielsweise auch der besagte Schwellwert für die binäre Unterteilung des Eingabebildes in einen weniger relevanten und einen relevanteren Anteil dahingehend verändert werden, dass ein größerer Anteil des Eingabebildes für relevant erachtet wird. Mit diesem Schwellwert kann das Verfahren dann neu gestartet werden.
Anhand der Relevanzbewertungsfunktion, und/oder anhand des Gütemaßes dieser Relevanzbewertungsfunktion, und/oder anhand der ortsaufgelösten Relevanzbewertung, und/oder anhand des Gütemaßes dieser ortsaufgelösten Relevanzbewertung, kann eine Plausibilität der Ausgabe des Bildklassifikators ausgewertet werden. Diese Plausibilität ist auf eine quantitativ motivierte Grundlage gestellt und hängt vom konkreten Eingabebild ab. Es können also insbesondere beispielsweise auch Eingabebilder erkannt werden, für die es zweifelhaft ist, ob der Bildklassifikator die Entscheidung über die Klassenzuordnung auf der Basis der im Kontext der Anwendung korrekten Informationen trifft. Ist beispielsweise ein für die Qualitätskontrolle eines Produkts aufgenommenes Bild verwackelt, unscharf oder falsch belichtet, kann der Bildklassifikator beispielsweise „ersatzweise“ Merkmale des Bildhintergrundes für seine Entscheidung heranziehen.
In einer weiteren besonders vorteilhaften Ausgestaltung wird in Antwort darauf, dass die ermittelte Plausibilität ein vorgegebenes Kriterium erfüllt, ein Produkt, auf das sich das Eingabebild bezieht, für eine manuelle Nachkontrolle vorgemerkt, und/oder es wird eine Fördereinrichtung angesteuert, um dieses Produkt aus dem Produktionsprozess abzusondern. Dann kann ein erheblicher technischer Zusatzaufwand für die Aufnahme und Auswertung von Bildern im Rahmen der automatisierten Qualitätskontrolle eingespart werden, der ansonsten notwendig wäre, um auch alle Zweifelsfälle und Grenzfälle automatisiert abklären zu können. Die manuelle Nachkontrolle einiger weniger Exemplare eines in großer Stückzahl gefertigten Produkts kann wirtschaftlich deutlich günstiger sein als die Steigerung der Trefferquote bei der automatisierten Qualitätskontrolle auf ein Maß, bei dem die nachzukontrollierenden Zweifelsfälle komplett wegfallen würden.
In einer weiteren besonders vorteilhaften Ausgestaltung wird mindestens eine vom Generator gelieferte Abwandlung als weiteres Trainingsbild für den Bildklassifikator verwendet. Ausgehend vom ursprünglichen Eingabebild überschreitet die Abwandlung die Entscheidungsgrenze des Bildklassifikators. Wenn die Abwandlung als Trainingsbild genutzt wird, kann die Entscheidungsgrenze des Bildklassifikators weiter geschärft werden.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100;
2 Beispiel für iterative Erzeugung von Abwandlungen 7 eines Eingabebildes 1, bis eine Änderung der Klassenzuordnung erreicht ist.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Plausibilisierung der Ausgabe eines Bildklassifikators 2, der ein Eingabebild 1 einer oder mehreren Klassen 3a-3c einer vorgegebenen Klassifikation zuordnet. Als Eingabebilder 1 können gemäß Schritt 105 insbesondere beispielsweise Bilder von in Serie gefertigten, nominell identischen Produkten gewählt werden. Der Bildklassifikator 2 kann dann darauf trainiert sein, die Eingabebilder 1 in Klassen 3a-3c einer vorgegebenen Klassifikation einzuteilen, die eine Qualitätsbeurteilung des jeweiligen Produkts repräsentieren.
In Schritt 110 wird für das Eingabebild 1 mit dem Bildklassifikator 2 eine Zuordnung zu einer oder mehreren Klassen 3a-3c ermittelt. In Schritt 120 wird mit einer vorgegebenen Relevanzbewertungsfunktion 4 wird eine ortsaufgelöste Relevanzbewertung 1a des Eingabebildes 1 ermittelt. Diese Relevanzbewertung 1a gibt an, welche Anteile 1b, 1c des Eingabebildes 1 in welchem Maße zu der Zuordnung zu einer oder mehreren Klassen 3a-3c beigetragen haben.
In Schritt 130 wird ein Generator 6 darauf trainiert, Abwandlungen 7 des Eingabebildes 1 zu erzeugen, die nach Maßgabe einer vorgegebenen Kostenfunktion möglichst gut sind im Hinblick auf zwei Optimierungsziele. Die Abwandlungen 7 sollen einerseits im durch die Relevanzbewertungsfunktion 4 als für die Klassenzuordnung weniger relevant eingestuften Anteil 1b des Eingabebildes 1 möglichst wenig verändert sein. Die Abwandlungen 7 sollen andererseits vom Bildklassifikator 2 anders klassifiziert werden als das Eingabebild 1. Der Generator 6 kann insbesondere gemäß Block 131 eine Abbildung von Eingaben z aus einem Eingaberaum 6a zu Abwandlungen 7 bereit.
Das Training des Generators 6 beinhaltet, Parameter 6b, die das Verhalten des Generators 6 charakterisieren, zu optimieren, so dass sich die vom Generator 6 gelieferten Abwandlungen 7 bestmöglich den genannten Optimierungszielen annähern. Das Ergebnis dieses Trainings ist der fertig trainierte Zustand 6b* der Parameter 6b. In dem in 1 gezeigten Beispiel wird gemäß Block 131a auch die Eingabe z in die Optimierung einbezogen, und am Ende des Trainings entsteht ein optimierter Zustand z* der Eingabe z.
Gemäß Block 132 können zu ein und demselben Eingabebild 1 ausgehend von den optimalen Parametern 6b* noch weitere Abwandlungen 7 erzeugt werden. Wie zuvor erläutert, kann über ein solches Ensemble von Abwandlungen 7 eine aufschlussreiche Statistik erstellt werden.
Die Forderung, dass die Klassenzuordnung geändert wird, kann gemäß Block 133 gerade so hoch gewichtet sein, dass eine solche Änderung tatsächlich stattfindet. Wie zuvor erläutert, wird die Optimierung hierdurch nicht von dem weiteren Ziel abgelenkt, dass der als weniger relevant bewertete Anteil 1b des Eingabebildes 1 möglichst unverändert bleiben soll. Eventuelle Änderungen in diesem Anteil 1b des Eingabebildes 1 können gemäß Block 134 nachträglich unterdrückt werden.
Gemäß Block 135 kann der Generator 6 ausgehend von einem für ein früheres Eingabebild 1' bereits trainierten Generator 6' trainiert werden. Wie zuvor erläutert, lässt sich dann insbesondere im Rahmen einer Qualitätskontrolle von in Serie gefertigten Produkten, bei der viele nominell ähnliche Eingabebilder 1 entstehen, Rechenzeit einsparen.
In Schritt 140 wird anhand des Ergebnisses des Trainings 130, und/oder anhand von durch den trainierten Generator 6 gelieferten Abwandlungen 7, ein Gütemaß 1a* für die ortsaufgelöste Relevanzbewertung 1a, und/oder ein Gütemaß 4* für die Relevanzbewertungsfunktion 4, ermittelt. Hieraus kann wiederum in Schritt 150 die Plausibilität 2* der Ausgabe des Bildklassifikators 2 ermittelt werden, bezogen auf das konkrete Eingabebild 1.
In Schritt 190 wird geprüft, ob diese Plausibilität 2* ein vorgegebenes Kriterium erfüllt. Ist dies der Fall (Wahrheitswert 1), kann beispielsweise in Schritt 191 das Produkt, auf das sich das Eingabebild 1 bezieht, für eine manuelle Nachkontrolle vorgemerkt werden. Alternativ oder auch in Kombination hierzu kann in Schritt 192 eine Fördereinrichtung 8 angesteuert werden, um dieses Produkt aus dem Produktionsprozess abzusondern.
Das Training 130 kann aber auch beispielsweise auf das Ergebnis führen, dass der Generator 6 auch nach Abschluss des Trainings 130 noch Abwandlungen 7 liefert, die noch der oder den gleichen Klassen 3a-3c zugeordnet werden wie das Eingabebild 1. Wenn dies der Fall ist (Wahrheitswert 1 bei der diesbezüglichen Prüfung 160), wurden bislang möglicherweise einige, aber nicht alle für die Klassenzuordnung relevanten Anteile 1c des Eingabebildes identifiziert. Gemäß Block 170 kann dann das Verfahren 100 mit einer solchen Abwandlung 7 als Eingabebild 1 neu gestartet werden. Alternativ oder auch in Kombination hierzu kann gemäß Block 180 das Verfahren mit einem Schwellwert für die Unterteilung des Eingabebildes 1, der zur Einstufung eines größeren Anteils 1c des Eingabebildes 1 als für die Klassenzuordnung relevant führt, neu gestartet werden.
2 zeigt einen beispielhaften Werdegang eines Eingabebildes 1 bei einer iterativen Durchführung des Verfahrens 100. Das Eingabebild 1 zeigt eine Schraubenmutter 10 mit einem Innengewinde 11 in der Mitte. Diese Schraubenmutter weist zwei Defekte auf, nämlich einen Riss 12, der sich vom Außenumfang des Innengewindes 11 zum äußeren Rand der Schraubenmutter 10 erstreckt, sowie eine Materialanlagerung 13. Dementsprechend wird das Eingabebild 1 von dem Bildklassifikator 2 in die Klasse 3a eingeordnet, die dem Qualitätsurteil „nicht OK“ (NOK) entspricht. Die ortsaufgelöste Relevanzbewertung 1a des Eingabebildes 1 lässt erkennen, dass der Bereich 1c mit dem Riss 12 als relevant für die Zuordnung zu der Klasse 3a eingestuft wurde, während der Rest 1b des Eingabebildes 1 für weniger relevant erachtet wird.
Der Generator 6 wird auf das Ziel trainiert, im Bereich 1b des Eingabebildes 1 Veränderungen vorzunehmen, so dass eine Abwandlung 7 entsteht. Diese Abwandlung 7 soll so beschaffen sein, dass der Bildklassifikator 2 sie in die Klasse 3b einstuft, die dem Qualitätsurteil „OK“ entspricht.
In dem in 2 gezeigten Beispiel ist in der Abwandlung 7 zwar der Riss 12 verschwunden, aber die Abwandlung 7 wird vom Bildklassifikator 2 immer noch in die Klasse 3a für „nicht OK“ eingestuft. Die neue ortsaufgelöste Relevanzbewertung 1a' bringt die Ursache hierfür an den Tag: Der Bereich 1c' mit der Materialanlagerung 13 ist nun ausschlaggebend für die Klassenzuordnung.
Die Entscheidung zwischen den Klassen 3a „nicht OK“ und 3b „OK“ hängt also an mehr als nur dem zuerst identifizierten Riss 12. Die Hypothese, dass auch der Bereich 1c' mit der Materialanlagerung 13 hierfür wichtig ist, wird mit einem zweiten Generator 6' überprüft, dem die Abwandlung 7 als Eingabebild 1 zugeführt wird. Der zweite Generator 6' wird darauf trainiert, in dem zuletzt identifizierten Bereich 1c' mit der Materialanlagerung 13 Veränderungen vorzunehmen mit dem Ziel, dass die so entstehende Abwandlung 7' vom Bildklassifikator 2 in die Klasse 3b für „OK“ eingestuft wird.
Wie in 2 dargestellt, gelingt dies, indem der zweite Generator 6' in der neuen Abwandlung 7' nun auch die Materialanlagerung 13 entfernt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2018/197074 A1 [0003]

Claims

Verfahren (100) zur Plausibilisierung der Ausgabe eines Bildklassifikators (2), der ein Eingabebild (1) einer oder mehreren Klassen (3a-3c) einer vorgegebenen Klassifikation zuordnet, mit den Schritten: • für das Eingabebild (1) wird mit dem Bildklassifikator (2) eine Zuordnung zu einer oder mehreren Klassen (3a-3c) ermittelt (110); • mit einer vorgegebenen Relevanzbewertungsfunktion (4) wird eine ortsaufgelöste Relevanzbewertung (1a) des Eingabebildes (1) ermittelt (120), die angibt, welche Anteile (1b, 1c) des Eingabebildes (1) in welchem Maße zu der Zuordnung zu einer oder mehreren Klassen (3a-3c) beigetragen haben; • ein Generator (6) wird darauf trainiert (130), Abwandlungen (7) des Eingabebildes (1) zu erzeugen, die nach Maßgabe einer vorgegebenen Kostenfunktion möglichst gut sind im Hinblick auf die Optimierungsziele, dass sie ◯ einerseits in einem durch die Relevanzbewertungsfunktion (4) als für die Klassenzuordnung weniger relevant eingestuften Anteil (1b) möglichst wenig verändert sind und ◯ andererseits vom Bildklassifikator (2) anders klassifiziert werden als das Eingabebild (1); • anhand des Ergebnisses des Trainings (130), und/oder anhand von durch den trainierten Generator (6) gelieferten Abwandlungen (7), wird ein Gütemaß (1a*) für die ortsaufgelöste Relevanzbewertung (1a), und/oder ein Gütemaß (4*) für die Relevanzbewertungsfunktion (4), ermittelt (140).
Verfahren nach Anspruch 1, wobei ein Generator (6) gewählt wird (131), der dazu ausgebildet ist, Eingaben z aus einem Eingaberaum (6a) in Abwandlungen (7) zu übersetzen, und wobei Parameter (6b), die das Verhalten des Generators (6) charakterisieren, im Hinblick auf die Optimierungsziele für die Abwandlungen (7) optimiert werden.
Verfahren (100) nach Anspruch 2, wobei zusätzlich die Eingaben z im Hinblick auf die Optimierungsziele für die Abwandlungen (7) optimiert werden (131a).
Verfahren (100) nach einem der Ansprüche 2 bis 3, wobei ausgehend von optimalen Parametern (6b*) weitere Abwandlungen (7) ermittelt werden (132), indem • Parameter (6b) aus einer Zufallsverteilung um das Optimum (6b*) herum gezogen werden; und/oder • die Optimierung der Parameter (6b) ausgehend von anderen Startwerten wiederholt wird.
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei das Optimierungsziel, dass die Abwandlungen (7) vom Bildklassifikator (2) anders klassifiziert werden als das Eingabebild (1), im Verhältnis zu dem Optimierungsziel, dass der als für die Klassenzuordnung weniger relevant eingestufte Anteil (1b) möglichst wenig verändert wird, gerade so hoch gewichtet wird (133), dass die Abwandlungen (7) tatsächlich vom Bildklassifikator (2) anders klassifiziert werden als das Eingabebild (1).
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei in der vom Generator (6) gelieferten Abwandlung (7) Änderungen in dem durch die Relevanzbewertungsfunktion (4) als für die Klassenzuordnung weniger relevant eingestuften Anteil (1b) des Eingabebildes (1) nachträglich unterdrückt werden (134).
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei der Generator (6) in Bezug auf ein Eingabebild (1) ausgehend von einem für ein früheres Eingabebild (1') bereits trainierten Generator (6') trainiert wird (135).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei das Eingabebild (1) anhand eines Vergleichs der ortsaufgelösten Relevanzbewertung (1a) mit einem vorgegebenen Schwellwert binär in einen für die Klassenzuordnung weniger relevanten Anteil (1b) und in einen für die Klassenzuordnung relevanteren Anteil (1c) unterteilt wird (121).
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei in Antwort darauf, dass der Generator (6) nach Abschluss des Trainings (130) Abwandlungen (7) liefert (160), die noch der oder den gleichen Klassen (3a-3c) zugeordnet werden wie das Eingabebild (1), • das Verfahren (100) mit einer solchen Abwandlung (7) als Eingabebild (1) neu gestartet wird (170), und/oder • das Verfahren (100) mit einem Schwellwert für die Unterteilung des Eingabebildes (1), der zur Einstufung eines größeren Anteils (1c) des Eingabebildes (1) als für die Klassenzuordnung relevanter führt, neu gestartet wird (180).
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei anhand der Relevanzbewertungsfunktion (4), und/oder anhand des Gütemaßes (4*) dieser Relevanzbewertungsfunktion (4), und/oder anhand der ortsaufgelösten Relevanzbewertung (1a), und/oder anhand des Gütemaßes (1a*) dieser ortsaufgelösten Relevanzbewertung (1a), eine Plausibilität (2*) der Ausgabe des Bildklassifikators (2) ausgewertet wird (150).
Verfahren (100) nach Anspruch 10, wobei in Antwort darauf, dass die ermittelte Plausibilität (2*) ein vorgegebenes Kriterium erfüllt (190), ein Produkt, auf das sich das Eingabebild (1) bezieht, für eine manuelle Nachkontrolle vorgemerkt wird (191), und/oder eine Fördereinrichtung (8) angesteuert wird (192), um dieses Produkt aus dem Produktionsprozess abzusondern.
Verfahren nach einem der Ansprüche 1 bis 11, wobei mindestens eine vom Generator (6) gelieferte Abwandlung (7) als weiteres Trainingsbild für den Bildklassifikator (2) verwendet wird.
Verfahren (100) nach einem der Ansprüche 1 bis 12, wobei Bilder von in Serie gefertigten, nominell identischen Produkten als Eingabebilder (1) gewählt werden (105) und wobei der Bildklassifikator (2) darauf trainiert ist, die Eingabebilder (2a-3c) einer oder mehreren von mindestens zwei möglichen Klassen (3a-3c) zuzuordnen, die eine Qualitätsbeurteilung des jeweiligen Produkts repräsentieren.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 13 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 14.
Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 14, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 15.