DE102020212005A1

DE102020212005A1 - Verfahren zur Bestimmung der für einen Bildklassifikator entscheidungsrelevanten Bildanteile

Info

Publication number: DE102020212005A1
Application number: DE102020212005.6A
Authority: DE
Inventors: Andres Mauricio Munoz Delgado
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-03-24
Anticipated expiration: 2040-09-25
Also published as: DE102020212005B4

Abstract

Verfahren (100) zur Messung, auf welche Anteile x# eines Eingabe-Bildes x ein Bildklassifikator (1) seine Entscheidung stützt, mit den Schritten:• es wird eine Kandidaten-Menge M von Konfigurationen m von Pixeln bereitgestellt (110);• für alle Paare (m1, m2) von Konfigurationen m1und m2aus der Menge M wird mit einer vorgegebenen Metrik die Ähnlichkeit Σ(m1, m2) zwischen diesen Konfigurationen m1und m2ermittelt (120);• aus der Teilmenge GN⊂M der Konfigurationen m, für die noch keine Relevanzbewertung gx(m) vorliegt, wird eine neue Konfiguration m ausgewählt (130), die die Relevanzbewertung gx(m) im Vergleich zu den bereits bekannten Relevanzbewertungen gx(m) voraussichtlich verbessert;• für die ausgewählte neue Konfiguration m wird anhand einer vorgegebenen Bewertungsfunktion gxeine Relevanzbewertung gx(m) ermittelt (140);• es wird geprüft (150), ob eine vorgegebene Mindestanzahl oder Maximalzahl B von Relevanzbewertungen gx(m) ermittelt wurde, und/oder ob diese Relevanzbewertungen gx(m) ein vorgegebenes Qualitätskriterium erfüllen;• und wenn dies der Fall ist, werden aus den Konfigurationen m aus der Teilmenge GM⊂M, für die die Relevanzbewertung gx(m) oberhalb eines vorgegebenen Schwellwerts d liegt, und/oder aus den Top-N Konfigurationen m aus der Teilmenge GM⊂M mit den höchsten Relevanzbewertungen gx(m), die gesuchten Anteile x# des Eingabe-Bildes x ermittelt (160).

Description

Die vorliegende Erfindung betrifft die Kontrolle des Verhaltens trainierbarer Bildklassifikatoren, die beispielsweise für die Qualitätskontrolle von in Serie gefertigten Produkten oder auch für das zumindest teilweise automatisierte Führen von Fahrzeugen genutzt werden können.
Stand der Technik
Bei der Serienfertigung von Produkten ist es in der Regel erforderlich, die Qualität der Fertigung laufend zu überprüfen. Dabei wird angestrebt, Qualitätsprobleme möglichst schnell zu erkennen, um die Ursache baldmöglichst beheben zu können und nicht zu viele Einheiten des jeweiligen Produkts als Ausschuss zu verlieren.
Die optische Kontrolle der Geometrie und/oder Oberfläche eines Produkts ist schnell und zerstörungsfrei. Die WO 2018/197 074 A1 offenbart eine Prüfvorrichtung, in der ein Objekt einer Vielzahl von Beleuchtungssituationen ausgesetzt werden kann, wobei in jeder dieser Beleuchtungssituationen mit einer Kamera Bilder des Objekts aufgezeichnet werden. Aus diesen Bildern wird die Topographie des Objekts ausgewertet.
Bilder des Produkts können auch unmittelbar mit einem Bildklassifikator auf der Basis künstlicher neuronaler Netzwerke einer von mehreren Klassen einer vorgegebenen Klassifikation zugeordnet werden. Auf dieser Basis kann das Produkt einer von mehreren vorgegebenen Qualitätsklassen zugeordnet werden. Im einfachsten Fall ist diese Klassifikation binär („OK“/„nicht OK“).
Beim zumindest teilweise automatisierten Führen von Fahrzeugen werden ebenfalls trainierbare Bildklassifikatoren eingesetzt, um Verkehrssituationen zu bewerten oder zumindest auf ihren Gehalt an Objekten zu untersuchen.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Messung entwickelt, auf welche Anteile x# eines Eingabe-Bildes x ein Bildklassifikator seine Entscheidung über die Zuordnung dieses Eingabe-Bildes x zu einer oder mehreren Klassen einer vorgegebenen Klassifikation stützt.
Hierzu wird zunächst eine Kandidaten-Menge M von Konfigurationen m von Pixeln des Eingabe-Bildes x, und/oder eines vom Bildklassifikator aus dem Eingabe-Bild x erzeugten Zwischenprodukts x', bereitgestellt. Zu prüfen ist, welche Konfigurationen m aus dieser Kandidaten-Menge M für den Bildklassifikator in Bezug auf das Eingabe-Bild x entscheidungsrelevant sind.
So ist es beispielsweise wünschenswert, dass ein Bildklassifikator für Verkehrssituationen einen Fußgänger nicht erst dann erkennt, wenn er vollständig sichtbar ist, sondern schon in dem Moment, indem der Kopf, die Beine oder andere Merkmale, die den Fußgänger eindeutig als solchen erkennen lassen, sichtbar werden. Die Kandidaten-Menge M kann dann beispielsweise Konfigurationen m von Pixeln enthalten, die lediglich den Kopf oder lediglich die Beine zeigen. Wenn ein solcher Bildklassifikator ein Warnsystem, ein Fahrassistenzsystem oder ein System für das zumindest teilweise automatisierte Fahren ansteuert, können gefährliche Situationen, in denen beispielsweise ein Fußgänger zwischen geparkten Fahrzeugen auf die Fahrbahn tritt, früher entschärft werden.
Bei der Qualitätskontrolle von in Serie gefertigten Produkten ist es beispielsweise wichtig, dass bestimmte Mängel und Schäden in jedem Fall dazu führen, dass das Produkt als „nicht OK = NOK“ klassifiziert wird. Die Kandidaten-Menge M kann dann beispielsweise Konfigurationen m von Pixeln enthalten, die im Wesentlichen nur den konkreten Mangel bzw. Schaden zeigen.
Selbst bei einer derart konkreten Fragestellung ist jedoch eine sehr große Anzahl von Konfigurationen m zu untersuchen, um zu einer belastbaren Aussage zu kommen. Um zu prüfen, ob die in der Konfiguration m enthaltenen Pixel entscheidungsrelevant sind, können beispielsweise anhand der Konfiguration m Abwandlungen des Eingabe-Bildes x, bzw. des Zwischenprodukts x', ermittelt und von dem Bildklassifikator verarbeitet werden. Je nach Komplexität des Bildklassifikators kann dies pro Konfiguration m eine Rechenzeit in Anspruch nehmen, die sich über alle Konfigurationen m in der Menge M zu einer erheblichen Wartezeit summiert. Dies gilt insbesondere dann, wenn der Bildklassifikator nur als „Black-Box-Modell“ zur Verfügung steht und es beispielsweise nicht möglich ist, ein Zwischenprodukt x' zu bearbeiten, das im Vergleich zum Eingabe-Bild x eine bereits deutlich verminderte Dimensionalität aufweist. Darüber hinaus kann die Anwendung des Bildklassifikators noch auf andere Weise Kosten verursachen als nur in Form von benötigter Zeit. So wird die Nutzung von Bildklassifikatoren beispielsweise auch als Cloud-Dienst angeboten und pro verarbeitetem Bild abgerechnet.
Das hier beschriebene Verfahren strebt daher an, unter der Randbedingung, dass die Nutzung des Bildklassifikators quantitativ beschränkt ist, eine möglichst belastbare Aussage dahingehend zu gewinnen, welche Konfigurationen m von Pixeln für den Bildklassifikator in Bezug auf das Eingabe-Bild x entscheidungsrelevant sind. Gesucht sind also Konfigurationen m, für die eine Relevanzbewertung g_x(m) anhand einer vorgegebenen Bewertungsfunktion g_x maximal ist.
Dabei geht das Verfahren von der Annahme aus, dass der Bildklassifikator in gewissem Maße unempfindlich gegen zumindest solche kleinen Veränderungen der Eingabe ist, bei denen es sich nicht um gezielt konstruierte „Adversarial Examples“ handelt, mit denen die Klassifikation mutwillig beeinflusst werden soll. Sehr ähnliche Konfigurationen sollten daher auf vergleichbare Klassifikationsergebnisse abgebildet werden. Dementsprechend ist es sinnvoll, Konfigurationen m mit einer gewissen Variabilität zu untersuchen. Robustheit gegen „Adversarial Examples“ kann beispielsweise durch „Adversarial Training“, also das Hinzufügen von „Adversarial Examples“ zu den Trainingsdaten, oder andere Methoden hergestellt werden.
Daher wird im Rahmen des Verfahrens für alle Paare (m₁, m₂) von Konfigurationen m₁ und m₂ aus der Menge M mit einer vorgegebenen Metrik die Ähnlichkeit Σ(m₁, m₂) zwischen diesen Konfigurationen m₁ und m₂ ermittelt. In einem iterativen Prozess wird anschließend jeweils unter Heranziehung

• derjenigen Konfigurationen m aus der Teilmenge G_M⊂M, für die bereits eine Relevanzbewertung g_x(m) in Bezug auf die Entscheidung des Bildklassifikators vorliegt,
• der für diese Konfigurationen m bereits ermittelten Relevanzbewertungen g_x(m) sowie
• der paarweisen Ähnlichkeiten Σ(m₁, m₂) zwischen Konfigurationen m₁ und m₂

_N

_x

_N

_M

_x

Die Iterationen werden in dieser Weise fortgesetzt, bis eine vorgegebene Mindestanzahl oder Maximalzahl B von Relevanzbewertungen g_x(m) ermittelt wurde, und/oder bis diese Relevanzbewertungen g_x(m) ein vorgegebenes Qualitätskriterium erfüllen. Anschließend werden

• aus den Konfigurationen m aus der Teilmenge G_M⊂M, für die die Relevanzbewertung g_x(m) oberhalb eines vorgegebenen Schwellwerts d liegt, und/oder
• aus den Top-N Konfigurationen m aus der Teilmenge G_M⊂M mit den höchsten Relevanzbewertungen g_x(m),

Indem in jeder Iteration gezielt solche Konfigurationen m getestet werden, die in der jeweils aktuellen Situation den größten Zugewinn an Information versprechen, kann aus einem vorgegebenen „Budget“ an Nutzung des Bildklassifikators somit die genaueste Aussage über die Entscheidungsrelevanz von Konfigurationen m gewonnen werden, die dieses „Budget“ hergibt.
Wie zuvor erläutert, ist dies insbesondere dann hilfreich, wenn direkt im Raum der Eingabe-Bilder x gearbeitet werden muss und die potentielle Anzahl zu untersuchender Konfigurationen m in der Menge M sehr groß ist. Das Verfahren ist aber genauso gut anwendbar, wenn mit einem Zwischenprodukt x' gearbeitet werden kann, das der Bildklassifikator aus dem Eingabe-Bild x erzeugt hat. Beispielsweise können eine oder mehrere Faltungsschichten im Bildklassifikator ein in seiner Dimensionalität stark reduziertes Zwischenprodukt x' erzeugen, das anschließend auf eine Zuordnung zu einer oder mehreren Klassen abgebildet wird. Ein solches Zwischenprodukt x' ist dann immer noch dahingehend räumlich mit dem Eingabe-Bild x korreliert, dass etwa Bildinformation in einer Ecke des Eingabe-Bildes maßgeblich zur hierzu korrespondierenden Ecke des Zwischenprodukts x' beiträgt. Wenn entscheidungsrelevante Konfigurationen m im Raum der Zwischenprodukte x' ermittelt wurden, können diese beispielsweise durch Upsampling in den Raum der Eingabe-Bilder x überführt werden.
Die Menge M der Konfigurationen m kann insbesondere beispielsweise von vornherein auf das Ziel optimiert werden, dass die mittlere paarweise Korrelation zwischen Konfigurationen m₁ und m₂ minimiert wird. Auf diese Weise werden Konfigurationen m mit einer größeren Variabilität zur Wahl gestellt.
Die Menge M der Konfigurationen m kann weiterhin beispielsweise unter der Randbedingung zusammengestellt werden, dass

• die Anzahl der Pixel, in denen sich zwei Konfigurationen m₁ und m₂ unterscheiden, größer als ein vorgegebener Schwellwert ist, und/oder
• jede Konfiguration m mindestens eine vorgegeben Anzahl Pixel enthält, und/oder
• eine Konfiguration m₁ möglichst keine Teilmenge einer anderen Konfiguration m₂ sein sollte.

Auch diese Bedingungen bevorzugen eine größere Variabilität der Konfigurationen m in der Menge M, so dass größere Bereiche des insgesamt zur Verfügung stehenden Raums an Konfigurationen m zumindest in Betracht gezogen werden. Die Menge M wird festgelegt, bevor Relevanzbewertungen g_x(m) ermittelt werden. Es gibt zu diesem Zeitpunkt keine statische Grundlage dafür, Bereiche des zunächst zur Verfügung stehenden Raums von vornherein auszuschließen.
Die Ähnlichkeit zwischen zwei Konfigurationen m₁ und m₂ kann beispielsweise mit einer Kern-Funktion (Kernel) ermittelt werden, die die beiden Konfigurationen m₁ und m₂ auf ein skalares Maß für die Ähnlichkeit abbildet. Diese Kern-Funktion ist symmetrisch und semi-positiv definit. Wenn die Konfigurationen m₁ und m₂ beispielsweise als Vektoren oder Tensoren vorliegen, kann die Kern-Funktion beispielsweise ein inneres Produkt dieser Vektoren oder Tensoren sein.
In einer besonders vorteilhaften Ausgestaltung beinhaltet die von der Bewertungsfunktion g_x gelieferte Bewertung g_x(m) einen Klassifikations-Score f_c, auf den der Bildklassifikator eine Abwandlung x* des Eingabe-Bildes x, bzw. des Zwischenprodukts x', abbildet. Diese Abwandlung x* ist für alle Pixel in der Konfiguration m identisch mit dem Eingabe-Bild x, bzw. mit dem Zwischenprodukt x'. Für alle anderen Pixel ist die Abwandlung x* gegenüber dem Eingabe-Bild x, bzw. gegenüber dem Zwischenprodukt x', verändert. Der Klassifikations-Score gibt quantitativ die Zugehörigkeit der Abwandlung x* zu einer oder mehreren vorgegebenen Klassen an, beispielsweise in Form eines Softmax-Scores oder Logit-Scores. Wenn die Pixel in der Konfiguration m besonders relevant sind, wird das Hinzufügen bzw. Entfernen dieser Pixel im Eingabe-Bild x, bzw. im Zwischenprodukts x', einen starken Anstieg bzw. starken Abfall des Logit-Scores für die entsprechende Klasse bewirken.
Die Abwandlung x* kann insbesondere beispielsweise erzeugt werden, indem zu allen Pixeln des Eingabe-Bildes x, bzw. des Zwischenprodukts x', die nicht zur Konfiguration m gehören, jeweils ein hierzu korrespondierender Pixelwert eines Stör-Bildes P addiert wird. Dieses Stör-Bild P kann beispielsweise eine homogene Fläche sein, die etwa mit einem maximalen oder minimalen Intensitätswert belegt ist. Eine homogene Fläche als Stör-Bild P hat den Vorteil, dass sie keine Hinweise auf eine andere Klasse, zu deren Erkennung der Bildklassifikator trainiert ist, einbringt.
In einer weiteren vorteilhaften Ausgestaltung wird jede neue ermittelte Relevanzbewertung g_x(m) um ein aus einer Zufallsverteilung mit vorgegebener Varianz σ gezogenes Sample ε abgeändert und in dieser abgeänderten Form für das Auswählen neuer Konfigurationen m herangezogen. Auf diese Weise kann ein Verlauf g_x(G_N) der Relevanzbewertung g_x für die noch nicht getesteten Konfigurationen m ∈ G_N anhand des Verlaufs g_x(G_M) für die bereits getesteten Konfigurationen m ∈ G_M vorhergesagt werden, ohne dass dieser Verlauf dann für alle Konfigurationen m ∈ G_M exakt mit den bisherigen Beobachtungen für diese Konfigurationen m übereinstimmen muss. Vielmehr genügt es, wenn der neu ermittelte Verlauf mit den bisherigen Beobachtungen konsistent ist.
In einer besonders vorteilhaften Ausgestaltung wird eine konditionale Wahrscheinlichkeitsverteilung G für die noch nicht ermittelten Relevanzbewertungen g_x(m) mit m ∈ G_N ermittelt unter der Bedingung, dass g_x(m) für m ∈ G_M bereits bekannt ist. Die neue Konfiguration m für die nächste Iteration wird unter Heranziehung dieser konditionalen Wahrscheinlichkeitsverteilung G ausgewählt. Auf diese Weise lassen sich von vornherein große Teile des Suchraums innerhalb der Menge M von Konfigurationen m ausschließen. Weiterhin kann die Wahrscheinlichkeit, mit der eine konkrete neue Konfiguration m einen zusätzlichen Informationsgewinn verspricht, quantitativ angegeben werden.
Somit wird in einer weiteren vorteilhaften Ausgestaltung eine neue Konfiguration m ausgewählt, für die gemäß der konditionalen Wahrscheinlichkeitsverteilung G die Vorhersage für die Relevanzbewertung g_x(m) am größten ist. Dann ist die Wahrscheinlichkeit hoch, dass eine tatsächliche Auswertung der Relevanzbewertung g_x(m) für diese neue Konfiguration die Suche dem Ziel eines maximalen g_x(m) deutlich näher bringt. Alternativ oder auch in Kombination hierzu kann auch eine neue Konfiguration m ausgewählt werden, für die Unsicherheit dieser Relevanzbewertung g_x(m), am größten ist. Die Auswahl einer solchen Konfiguration m verspricht zwar nicht direkt eine Verbesserung der Relevanzbewertung g_x(m), aber einen Informationsgewinn für die weitere Suche.
Die Suche nach einer Konfiguration m, die die Relevanzbewertung g_x(m) maximiert, ist ein Stück weit analog zur Exploration von Bodenschätzen mittels Probebohrungen. Diese Probebohrungen sind in der Regel aufwändig, teuer und an bestimmten Orten im Suchgebiet, beispielsweise unter einem Gebäude, gar nicht möglich. Die Kunst bei der Exploration besteht somit darin, das mögliche Kontingent an Probebohrungen unter Berücksichtigung aller örtlichen Randbedingungen so zu platzieren, dass sich hieraus die räumliche Verteilung des Bodenschatzes im Gebiet zwischen den Probebohrungen möglichst gut vorhersagen lässt (bekannt als „Kriging“).
In einer besonders vorteilhaften Ausgestaltung wird die Bewertungsfunktion g_x als Gauß-Prozess modelliert, der von der Konfiguration m als Zufallsvariable abhängt. Ein Gauß-Prozess ist durch einen Erwartungswert µ und seine Kovarianzfunktion Σ bestimmt. Der Verlauf von g_x(G_N) für die noch nicht getesteten Konfigurationen m ∈ G_N unter der Bedingung, dass g_x(G_M) für die bereits getesteten Konfigurationen m ∈ G_M bereits bekannt ist, genügt somit einer Normalverteilung mit Erwartungswert µ_M und Kovarianzfunktion Σ_M: $g_{x} (G_{N}) | g_{x} (G_{M}) \sim N (μ_{M}, Σ_{M}) .$
Hierin ist $μ_{M} = μ (G_{N}) + Σ (G_{N}, G_{M}) Σ^{- 1} (G_{M}, G_{M}) \cdot (g_{x} (G_{M}) - μ (G_{M}))$
und $Σ_{M} = Σ (G_{N}, G_{N}) - Σ (G_{N}, G_{M}) Σ^{- 1} (G_{M}, G_{M}) Σ (G_{M}, G_{N}) .$
µ(G_N) und µ(G_M) sind die Erwartungswerte von g_x(m) über alle Konfigurationen m ∈ G_N bzw. m ∈ G_M. Σ(G_N, G_N) und Σ(G_M, G_M) sind Kovarianzen innerhalb der Teilmengen G_N bzw. G_M von Konfigurationen m. Σ(G_M, G_N) ist eine Kreuzkovarianz zwischen bereits getesteten Konfigurationen m ∈ G_M und noch nicht getesteten Konfigurationen m ∈ G_N. Die Erwartungswerte µ(G_N) und µ(G_M) müssen nicht explizit berechnet werden, sondern können auch beispielsweise unter Nutzung des Zentralen Grenzwertsatzes der Statistik angenähert werden.
Insbesondere können die zuvor erwähnten paarweisen Ähnlichkeiten Σ(m₁, m₂) als Kovarianzen des Gauß-Prozesses gewertet werden. Sowohl diese Kovarianzen als auch die Erwartungswerte des Gauß-Prozesses können dann Prozesses in Antwort darauf, dass eine neue Relevanzbewertung g_x(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden.
In einer weiteren besonders vorteilhaften Ausgestaltung werden Konfigurationen in der der Teilmenge G_N⊂M der Konfigurationen m, für die noch keine Relevanzbewertung g_x(m) vorliegt, in Antwort darauf, dass eine neue Relevanzbewertung g_x(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert. Dann kann die zur Verfügung stehende Auswahl an neuen Konfigurationen M, die ganz zu Beginn des Verfahrens ohne Vorausannahmen getroffen wurde, in Ansehung der inzwischen hinzugewonnenen Information erweitert werden.
In einer besonders vorteilhaften Ausgestaltung wird ein Bild eines in Serie gefertigten Produkts als Eingabe-Bild x gewählt wird. Die Klassen der Klassifikation repräsentieren dann eine Qualitätsbewertung des Produkts, wie beispielsweise „OK“, „nicht OK = NOK“ oder auch beliebige Abstufungen dazwischen. In diesem Zusammenhang sind insbesondere Erklärungen dafür, warum der Bildklassifikator ein Eingabe-Bild x der Klasse „NOK“ zuordnet, wichtig. Mit solchen Erklärungen lässt sich nicht nur der Bildklassifikator selbst verbessern, sondern es lassen sich auch Erkenntnisse über die mögliche Ursache des Qualitätsproblems gewinnen, die im Fertigungsprozess gesetzt wurde. Wenn beispielsweise eine Vielzahl kleiner lokalisierter Defekte am Produkt für die Einstufung als „NOK“ ausschlaggebend waren und diese Defekte wiederum mit bestimmten physikalischen Bedingungen während der Herstellung des Produkts korreliert sind (wie etwa hohe Temperatur oder hoher Druck), kann gezielt darauf hingewirkt werden, diese Bedingungen zu korrigieren, damit künftig ein größerer Anteil der hergestellten Produktexemplare als „OK“ eingestuft wird.
Bei einem aus verschiedenen Einzelteilen oder Baugruppen zusammengesetzten Produkt kann weiterhin beispielsweise erkannt werden, dass die für die Einstufung als „NOK“ ausschlaggebenden Merkmale alle an einem Einzelteil, bzw. in einer Baugruppe, lokalisiert sind. Dies ist ein Hinweis darauf, dass derjenige Teil des Fertigungsprozesses, in dem dieses Einzelteil, bzw. diese Baugruppe, entsteht, möglicherweise mangelhaft arbeitet. Es kann also in eine komplexe Abfolge von Fertigungsschritten gleichsam „chirurgisch“ eingegriffen werden, um Probleme gezielt zu beheben, ohne dabei andere Aspekte zu sehr zu verschlechtern.
Die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator seine Entscheidung stützt, können insbesondere beispielsweise mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der anhand einer Beobachtung des gleichen Produkts mit einer anderen Abbildungsmodalität als relevant für die Qualitätsbewertung des Produkts ermittelt wurde. Aus dem Ergebnis dieses Vergleichs kann dann eine Qualitätsbewertung für den Bildklassifikator ermittelt werden. Beispielsweise können Hyperparameter des Bildklassifikators optimiert werden mit dem Ziel, diese Qualitätsbewertung zu optimieren.
In einer weiteren besonders vorteilhaften Ausgestaltung wird ein von einem Fahrzeug aus aufgenommenes Bild einer Verkehrssituation als Eingabe-Bild x gewählt. Die Klassen der Klassifikation repräsentieren dann Bewertungen der Verkehrssituation, auf deren Basis das künftige Verhalten des Fahrzeugs geplant wird. Gerade in diesem Anwendungsfeld kann dem Bildklassifikator und einem nachgeschalteten Warnsystem, Fahrassistenzsystem oder System zum zumindest teilweise automatisierten Fahren häufig nur unter der Voraussetzung vertraut werden, dass die Entscheidungen des Bildklassifikators erklärbar sind. Das Verfahren kann genau diese Erklärungen liefern.
Die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator seine Entscheidung stützt, können insbesondere beispielsweise mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der als für die Beurteilung der Verkehrssituation relevant bekannt ist. Aus dem Ergebnis dieses Vergleichs kann dann eine Qualitätsbewertung für den Bildklassifikator ermittelt werden. Analog zum Anwendungsbeispiel der Qualitätskontrolle von in Serie gefertigten Produkten können dann beispielsweise Hyperparameter des Bildklassifikators optimiert werden mit dem Ziel, dass die Qualität des Bildklassifikators danach besser bewertet wird.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Ermitteln von Bildanteilen x#, die für einen Bildklassifikator 1 entscheidungsrelevant sind;
2 Veranschaulichung einer konditionalen Wahrscheinlichkeitsverteilung G für noch nicht ermittelte Relevanzbewertungen g_x(m).

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Ermitteln von Bildanteilen x#, die für einen Bildklassifikator 1 entscheidungsrelevant sind.
In Schritt 110 wird eine Kandidaten-Menge M von Konfigurationen m von Pixeln bereitgestellt. In dem in 1 gezeigten Beispiel handelt es sich hierbei um Pixel des Eingabe-Bildes x. Wie zuvor erläutert, kann es sich jedoch auch um Pixel eines vom Bildklassifikator 1 aus dem Eingabe-Bild x erzeugten Zwischenprodukts x' handeln. Dieser Fall ist in 1 der Übersichtlichkeit halber nicht eingezeichnet.
Die Menge M kann insbesondere beispielsweise gemäß Block 111 auf das Ziel hin optimiert werden, dass die mittlere paarweise Korrelation zwischen Konfigurationen m₁ und m₂ minimiert wird. Gemäß Block 112 kann die Menge M alternativ oder auch in Kombination hierzu noch unter weiteren Randbedingungen hinsichtlich der Variabilität der in ihr enthaltenen Konfigurationen M zusammengestellt werden.
In Schritt 120 werden Ähnlichkeiten Σ(m₁, m₂) zwischen Paaren von Konfigurationen m₁ und m₂ aus der Menge M ermittelt, die sich insbesondere beispielsweise in einer Kovarianzmatrix Σ zusammenfassen lassen. Die Menge M sowie die Kovarianzmatrix Σ können insbesondere beispielsweise ohne Ansehung eines konkreten Eingabe-Bildes x, also „offline“, vorausberechnet und für neue Eingabe-Bilder x immer wieder verwendet werden.
In Schritt 130 wird aus der Teilmenge G_N⊂M der Konfigurationen m, für die noch keine Relevanzbewertung g_x(m) vorliegt, eine neue Konfiguration m ausgewählt, die die Relevanzbewertung g_x(m) im Vergleich zu den bereits bekannten Relevanzbewertungen g_x(m) voraussichtlich verbessert. Für diese ausgewählte neue Konfiguration m wird in Schritt 140 anhand der vorgegebenen Bewertungsfunktion g_x eine Relevanzbewertung g_x(m) ermittelt. In Schritt 150 wird geprüft, ob eine vorgegebene Mindestanzahl oder Maximalzahl (Budget B) von Relevanzbewertungen g_x(m) ermittelt wurde, und/oder ob diese Relevanzbewertungen g_x(m) ein vorgegebenes Qualitätskriterium erfüllen. Wenn dies der Fall ist (Wahrheitswert 1), werden in Schritt 160 aus denjenigen Konfigurationen m ∈ G_M, für die Relevanzbewertungen g_x(m) vorliegen, die gesuchten entscheidungsrelevanten Anteile x# des Eingabe-Bildes x ermittelt.
Insbesondere kann beispielsweise gemäß Block 131 in jeder Iteration eine konditionale Wahrscheinlichkeitsverteilung G für die noch nicht ermittelten Relevanzbewertungen g_x(m) mit m ∈ G_N ermittelt werden unter der Bedingung, dass g_x(m) für m ∈ G_M bereits bekannt ist. Die neue Konfiguration m kann dann gemäß Block 132 unter Heranziehung dieser konditionalen Wahrscheinlichkeitsverteilung G ausgewählt werden. Insbesondere kann gemäß Block 133 eine neue Konfiguration m ausgewählt werden, für die gemäß der konditionalen Wahrscheinlichkeitsverteilung G die Vorhersage für die Relevanzbewertung g_x(m), und/oder für die Unsicherheit dieser Relevanzbewertung g_x(m), am größten ist.
Zu diesem Zweck kann insbesondere beispielsweise gemäß Block 134 die Bewertungsfunktion g_x als Gauß-Prozess modelliert werden, der von der Konfiguration m als Zufallsvariable abhängt. Gemäß Block 134a können dann die zuvor ermittelten Ähnlichkeiten Σ(m₁, m₂) von Konfigurationen m₁ und m₂ als Kovarianzen des Gauß-Prozesses gewertet werden.
Die von der Bewertungsfunktion g_x gelieferte Bewertung g_x(m) kann gemäß Block 141 insbesondere beispielsweise einen Klassifikations-Score f_c beinhalten, auf den der Bildklassifikator 1 eine Abwandlung x* des Eingabe-Bildes x abbildet. Diese Abwandlung x* kann gemäß Block 141a insbesondere beispielsweise erzeugt werden, indem zu allen Pixeln des Eingabe-Bildes x, die nicht zur Konfiguration m gehören, jeweils ein hierzu korrespondierender Pixelwert eines Stör-Bildes P addiert wird. Beispielsweise kann in einer Verkehrsszenerie die Konfiguration m einen Fußgänger, der eine Straße überquert, ungestört erkennbar lassen, während zugleich die restlichen Pixel des Eingabe-Bildes x auf Null gesetzt werden.
Jede neue ermittelte Relevanzbewertung g_x(m) kann optional gemäß Block 142 um ein aus einer Zufallsverteilung mit vorgegebener Varianz σ gezogenes Sample ε abgeändert und in dieser abgeänderten Form in weiteren Iterationen für das Auswählen neuer Konfigurationen m herangezogen werden.
Kovarianzen und Erwartungswerte eines Gauß-Prozesses, der die Bewertungsfunktion g_x modelliert, können gemäß Block 143 im Lichte einer für eine neue Konfiguration m neu ermittelten Relevanzbewertung g_x(m) aktualisiert werden.
Konfigurationen in der der Teilmenge G_N⊂M der Konfigurationen m, für die noch keine Relevanzbewertung g_x(m) vorliegt, können gemäß Block 144 in Antwort darauf, dass eine neue Relevanzbewertung g_x(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden.
Das Eingabe-Bild x kann gemäß Block 105 insbesondere beispielsweise ein Bild eines in Serie gefertigten Produkts sein. Die Klassen der Klassifikation repräsentieren dann eine Qualitätsbewertung des Produkts. Die in Schritt 160 ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator 1 seine Entscheidung stützt, können in Schritt 170 mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der anhand einer Beobachtung des gleichen Produkts mit einer anderen Abbildungsmodalität als relevant für die Qualitätsbewertung des Produkts ermittelt wurde.
Das Eingabe-Bild x kann alternativ gemäß Block 106 insbesondere beispielsweise ein von einem Fahrzeug aus aufgenommenes Bild sein. Die Klassen der Klassifikation repräsentieren dann Bewertungen der Verkehrssituation, auf deren Basis das künftige Verhalten des Fahrzeugs geplant wird. Die in Schritt 160 ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator 1 seine Entscheidung stützt, können in Schritt 180 mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der aus beliebiger Quelle als für die Beurteilung der Verkehrssituation relevant bekannt ist.
Aus den in den Vergleichen 170 bzw. 180 ermittelten Ergebnisse 170a bzw. 180a kann in Schritt 190 eine Qualitätsbewertung 1a des Bildklassifikators 1 ermittelt werden.
2 veranschaulicht eine konditionale Wahrscheinlichkeitsverteilung G für noch nicht ermittelte Relevanzbewertungen g_x(m). Zur Vereinfachung wird davon ausgegangen, dass sich alle Konfigurationen m in der Menge M entlang einer Achse ordnen lassen. In 2 sind die gemäß der Wahrscheinlichkeitsverteilung G vorhergesagten Werte der Relevanzbewertungen g_x(m) über der jeweiligen Konfiguration m aufgetragen.
In der in 2 gezeigten Situation sind für vier Konfigurationen m₁, m₂, m₃ und m₄ bereits Relevanzbewertungen g_x(m) ermittelt worden. Daher ist die Wahrscheinlichkeitsverteilung G unter Nutzung der Information aufgestellt, dass diese vier Relevanzbewertungen g_x(m) bekannt sind. Dementsprechend gibt es an diesen vier Stützstellen keinerlei Unsicherheit bezüglich der Relevanzbewertung g_x(m). Zwischen den Stützstellen gibt die Wahrscheinlichkeitsverteilung G jedoch einen Konfidenzschlauch C an, in dem g_x(m) in Abhängigkeit der Konfiguration m mit einer vorgegebenen Wahrscheinlichkeit verläuft. Konkrete Funktionsverläufe, von denen in 2 zwei Verläufe g₁ und g₂ beispielhaft eingezeichnet sind, sind durch Sampeln aus der Wahrscheinlichkeitsverteilung G erhältlich.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2018/197074 A1 [0003]

Claims

Verfahren (100) zur Messung, auf welche Anteile x# eines Eingabe-Bildes x ein Bildklassifikator (1) seine Entscheidung über die Zuordnung dieses Eingabe-Bildes x zu einer oder mehreren Klassen einer vorgegebenen Klassifikation stützt, mit den Schritten: • es wird eine Kandidaten-Menge M von Konfigurationen m von Pixeln des Eingabe-Bildes x, und/oder eines vom Bildklassifikator (1) aus dem Eingabe-Bild x erzeugten Zwischenprodukts x', bereitgestellt (110); • für alle Paare (m₁, m₂) von Konfigurationen m₁ und m₂ aus der Menge M wird mit einer vorgegebenen Metrik die Ähnlichkeit Σ(m₁, m₂) zwischen diesen Konfigurationen m₁ und m₂ ermittelt (120); • unter Heranziehung ◯ derjenigen Konfigurationen m aus der Teilmenge G_M⊂M, für die bereits eine Relevanzbewertung g_x(m) in Bezug auf die Entscheidung des Bildklassifikators (1) vorliegt, ◯ der für diese Konfigurationen m bereits ermittelten Relevanzbewertungen g_x(m) sowie ◯ der paarweisen Ähnlichkeiten Σ(m₁, m₂) zwischen Konfigurationen m₁ und m₂ wird aus der Teilmenge G_N⊂M der Konfigurationen m, für die noch keine Relevanzbewertung g_x(m) vorliegt, eine neue Konfiguration m ausgewählt (130), die die Relevanzbewertung g_x(m) im Vergleich zu den bereits bekannten Relevanzbewertungen g_x(m) voraussichtlich verbessert; • für die ausgewählte neue Konfiguration m wird anhand einer vorgegebenen Bewertungsfunktion g_x eine Relevanzbewertung g_x(m) ermittelt (140); • es wird geprüft (150), ob eine vorgegebene Mindestanzahl oder Maximalzahl B von Relevanzbewertungen g_x(m) ermittelt wurde, und/oder ob diese Relevanzbewertungen g_x(m) ein vorgegebenes Qualitätskriterium erfüllen; • und wenn dies der Fall ist, werden aus den Konfigurationen m aus der Teilmenge G_M⊂M, für die die Relevanzbewertung g_x(m) oberhalb eines vorgegebenen Schwellwerts d liegt, und/oder aus den Top-N Konfigurationen m aus der Teilmenge G_M⊂M mit den höchsten Relevanzbewertungen g_x(m), die gesuchten Anteile x# des Eingabe-Bildes x ermittelt (160).
Verfahren (100) nach Anspruch 1, wobei die von der Bewertungsfunktion g_x gelieferte Bewertung g_x(m) einen Klassifikations-Score f_c beinhaltet (141), auf den der Bildklassifikator (1) eine Abwandlung x* des Eingabe-Bildes x, bzw. des Zwischenprodukts x', abbildet, die für alle Pixel in der Konfiguration m identisch mit dem Eingabe-Bild x, bzw. mit dem Zwischenprodukt x', ist und für alle anderen Pixel gegenüber dem Eingabe-Bild x, bzw. gegenüber dem Zwischenprodukt x', verändert ist.
Verfahren (100) nach Anspruch 2, wobei die Abwandlung x* erzeugt wird, indem zu allen Pixeln des Eingabe-Bildes x, bzw. des Zwischenprodukts x', die nicht zur Konfiguration m gehören, jeweils ein hierzu korrespondierender Pixelwert eines Stör-Bildes P addiert wird (141a).
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei jede neue ermittelte Relevanzbewertung g_x(m) um ein aus einer Zufallsverteilung mit vorgegebener Varianz σ gezogenes Sample ε abgeändert (142) und in dieser abgeänderten Form für das Auswählen neuer Konfigurationen m herangezogen wird.
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei eine konditionale Wahrscheinlichkeitsverteilung G für die noch nicht ermittelten Relevanzbewertungen g_x(m) mit m ∈ G_N ermittelt wird (131) unter der Bedingung, dass g_x(m) für m ∈ G_M bereits bekannt ist, und wobei die neue Konfiguration m unter Heranziehung dieser konditionalen Wahrscheinlichkeitsverteilung G ausgewählt wird (132).
Verfahren (100) nach Anspruch 5, wobei eine neue Konfiguration m ausgewählt wird (133), für die gemäß der konditionalen Wahrscheinlichkeitsverteilung G die Vorhersage für die Relevanzbewertung g_x(m), und/oder für die Unsicherheit dieser Relevanzbewertung g_x(m), am größten ist.
Verfahren (100) nach einem der Ansprüche 5 bis 6, wobei die Bewertungsfunktion g_x als Gauß-Prozess modelliert wird (134), der von der Konfiguration m als Zufallsvariable abhängt.
Verfahren (100) nach Anspruch 7, wobei die paarweisen Ähnlichkeiten Σ(m₁, m₂) als Kovarianzen des Gauß-Prozesses gewertet werden (134a) und wobei sowohl diese Kovarianzen als auch die Erwartungswerte des Gauß-Prozesses in Antwort darauf, dass eine neue Relevanzbewertung g_x(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden (143).
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei Konfigurationen in der der Teilmenge G_N⊂M der Konfigurationen m, für die noch keine Relevanzbewertung g_x(m) vorliegt, in Antwort darauf, dass eine neue Relevanzbewertung g_x(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden (144).
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei die Menge M der Konfigurationen m auf das Ziel hin optimiert wird, dass die mittlere paarweise Korrelation zwischen Konfigurationen m₁ und m₂ minimiert wird (111).
Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei die Menge M der Konfigurationen m unter der Randbedingung zusammengestellt wird (112), dass • die Anzahl der Pixel, in denen sich zwei Konfigurationen m₁ und m₂ unterscheiden, größer als ein vorgegebener Schwellwert ist, und/oder • jede Konfiguration m mindestens eine vorgegeben Anzahl Pixel enthält, und/oder • eine Konfiguration m₁ möglichst keine Teilmenge einer anderen Konfiguration m₂ sein sollte.
Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei ein Bild eines in Serie gefertigten Produkts als Eingabe-Bild x gewählt wird (105) und wobei die Klassen der Klassifikation eine Qualitätsbewertung des Produkts repräsentieren.
Verfahren (100) nach Anspruch 12, wobei die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator (1) seine Entscheidung stützt, mit einem Anteil x## des Eingabe-Bildes x verglichen wird (170), der anhand einer Beobachtung des gleichen Produkts mit einer anderen Abbildungsmodalität als relevant für die Qualitätsbewertung des Produkts ermittelt wurde, und wobei aus dem Ergebnis (170a) dieses Vergleichs (170) eine Qualitätsbewertung (1a) für den Bildklassifikator (1) ermittelt wird (190).
Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei ein von einem Fahrzeug aus aufgenommenes Bild einer Verkehrssituation als Eingabe-Bild x gewählt wird (106) und wobei die Klassen der Klassifikation Bewertungen der Verkehrssituation repräsentieren, auf deren Basis das künftige Verhalten des Fahrzeugs geplant wird.
Verfahren (100) nach Anspruch 14, wobei die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator seine Entscheidung stützt, mit einem Anteil x## des Eingabe-Bildes x verglichen wird (180), der als für die Beurteilung der Verkehrssituation relevant bekannt ist, und wobei aus dem Ergebnis (180a) dieses Vergleichs eine Qualitätsbewertung (1a) für den Bildklassifikator (1) ermittelt wird (190).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 15 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 16.
Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 16, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 17.