-
Die vorliegende Erfindung betrifft die Kontrolle des Verhaltens trainierbarer Bildklassifikatoren, die beispielsweise für die Qualitätskontrolle von in Serie gefertigten Produkten oder auch für das zumindest teilweise automatisierte Führen von Fahrzeugen genutzt werden können.
-
Stand der Technik
-
Bei der Serienfertigung von Produkten ist es in der Regel erforderlich, die Qualität der Fertigung laufend zu überprüfen. Dabei wird angestrebt, Qualitätsprobleme möglichst schnell zu erkennen, um die Ursache baldmöglichst beheben zu können und nicht zu viele Einheiten des jeweiligen Produkts als Ausschuss zu verlieren.
-
Die optische Kontrolle der Geometrie und/oder Oberfläche eines Produkts ist schnell und zerstörungsfrei. Die
WO 2018/197 074 A1 offenbart eine Prüfvorrichtung, in der ein Objekt einer Vielzahl von Beleuchtungssituationen ausgesetzt werden kann, wobei in jeder dieser Beleuchtungssituationen mit einer Kamera Bilder des Objekts aufgezeichnet werden. Aus diesen Bildern wird die Topographie des Objekts ausgewertet.
-
Bilder des Produkts können auch unmittelbar mit einem Bildklassifikator auf der Basis künstlicher neuronaler Netzwerke einer von mehreren Klassen einer vorgegebenen Klassifikation zugeordnet werden. Auf dieser Basis kann das Produkt einer von mehreren vorgegebenen Qualitätsklassen zugeordnet werden. Im einfachsten Fall ist diese Klassifikation binär („OK“/„nicht OK“).
-
Beim zumindest teilweise automatisierten Führen von Fahrzeugen werden ebenfalls trainierbare Bildklassifikatoren eingesetzt, um Verkehrssituationen zu bewerten oder zumindest auf ihren Gehalt an Objekten zu untersuchen.
-
Offenbarung der Erfindung
-
Im Rahmen der Erfindung wurde ein Verfahren zur Messung entwickelt, auf welche Anteile x# eines Eingabe-Bildes x ein Bildklassifikator seine Entscheidung über die Zuordnung dieses Eingabe-Bildes x zu einer oder mehreren Klassen einer vorgegebenen Klassifikation stützt.
-
Hierzu wird zunächst eine Kandidaten-Menge M von Konfigurationen m von Pixeln des Eingabe-Bildes x, und/oder eines vom Bildklassifikator aus dem Eingabe-Bild x erzeugten Zwischenprodukts x', bereitgestellt. Zu prüfen ist, welche Konfigurationen m aus dieser Kandidaten-Menge M für den Bildklassifikator in Bezug auf das Eingabe-Bild x entscheidungsrelevant sind.
-
So ist es beispielsweise wünschenswert, dass ein Bildklassifikator für Verkehrssituationen einen Fußgänger nicht erst dann erkennt, wenn er vollständig sichtbar ist, sondern schon in dem Moment, indem der Kopf, die Beine oder andere Merkmale, die den Fußgänger eindeutig als solchen erkennen lassen, sichtbar werden. Die Kandidaten-Menge M kann dann beispielsweise Konfigurationen m von Pixeln enthalten, die lediglich den Kopf oder lediglich die Beine zeigen. Wenn ein solcher Bildklassifikator ein Warnsystem, ein Fahrassistenzsystem oder ein System für das zumindest teilweise automatisierte Fahren ansteuert, können gefährliche Situationen, in denen beispielsweise ein Fußgänger zwischen geparkten Fahrzeugen auf die Fahrbahn tritt, früher entschärft werden.
-
Bei der Qualitätskontrolle von in Serie gefertigten Produkten ist es beispielsweise wichtig, dass bestimmte Mängel und Schäden in jedem Fall dazu führen, dass das Produkt als „nicht OK = NOK“ klassifiziert wird. Die Kandidaten-Menge M kann dann beispielsweise Konfigurationen m von Pixeln enthalten, die im Wesentlichen nur den konkreten Mangel bzw. Schaden zeigen.
-
Selbst bei einer derart konkreten Fragestellung ist jedoch eine sehr große Anzahl von Konfigurationen m zu untersuchen, um zu einer belastbaren Aussage zu kommen. Um zu prüfen, ob die in der Konfiguration m enthaltenen Pixel entscheidungsrelevant sind, können beispielsweise anhand der Konfiguration m Abwandlungen des Eingabe-Bildes x, bzw. des Zwischenprodukts x', ermittelt und von dem Bildklassifikator verarbeitet werden. Je nach Komplexität des Bildklassifikators kann dies pro Konfiguration m eine Rechenzeit in Anspruch nehmen, die sich über alle Konfigurationen m in der Menge M zu einer erheblichen Wartezeit summiert. Dies gilt insbesondere dann, wenn der Bildklassifikator nur als „Black-Box-Modell“ zur Verfügung steht und es beispielsweise nicht möglich ist, ein Zwischenprodukt x' zu bearbeiten, das im Vergleich zum Eingabe-Bild x eine bereits deutlich verminderte Dimensionalität aufweist. Darüber hinaus kann die Anwendung des Bildklassifikators noch auf andere Weise Kosten verursachen als nur in Form von benötigter Zeit. So wird die Nutzung von Bildklassifikatoren beispielsweise auch als Cloud-Dienst angeboten und pro verarbeitetem Bild abgerechnet.
-
Das hier beschriebene Verfahren strebt daher an, unter der Randbedingung, dass die Nutzung des Bildklassifikators quantitativ beschränkt ist, eine möglichst belastbare Aussage dahingehend zu gewinnen, welche Konfigurationen m von Pixeln für den Bildklassifikator in Bezug auf das Eingabe-Bild x entscheidungsrelevant sind. Gesucht sind also Konfigurationen m, für die eine Relevanzbewertung gx(m) anhand einer vorgegebenen Bewertungsfunktion gx maximal ist.
-
Dabei geht das Verfahren von der Annahme aus, dass der Bildklassifikator in gewissem Maße unempfindlich gegen zumindest solche kleinen Veränderungen der Eingabe ist, bei denen es sich nicht um gezielt konstruierte „Adversarial Examples“ handelt, mit denen die Klassifikation mutwillig beeinflusst werden soll. Sehr ähnliche Konfigurationen sollten daher auf vergleichbare Klassifikationsergebnisse abgebildet werden. Dementsprechend ist es sinnvoll, Konfigurationen m mit einer gewissen Variabilität zu untersuchen. Robustheit gegen „Adversarial Examples“ kann beispielsweise durch „Adversarial Training“, also das Hinzufügen von „Adversarial Examples“ zu den Trainingsdaten, oder andere Methoden hergestellt werden.
-
Daher wird im Rahmen des Verfahrens für alle Paare (m1, m2) von Konfigurationen m1 und m2 aus der Menge M mit einer vorgegebenen Metrik die Ähnlichkeit Σ(m1, m2) zwischen diesen Konfigurationen m1 und m2 ermittelt. In einem iterativen Prozess wird anschließend jeweils unter Heranziehung
- • derjenigen Konfigurationen m aus der Teilmenge GM⊂M, für die bereits eine Relevanzbewertung gx(m) in Bezug auf die Entscheidung des Bildklassifikators vorliegt,
- • der für diese Konfigurationen m bereits ermittelten Relevanzbewertungen gx(m) sowie
- • der paarweisen Ähnlichkeiten Σ(m1, m2) zwischen Konfigurationen m1 und m2
aus der Teilmenge GN⊂M der Konfigurationen m, für die noch keine Relevanzbewertung gx(m) vorliegt, eine neue Konfiguration m ausgewählt, die die Relevanzbewertung gx(m) im Vergleich zu den bereits bekannten Relevanzbewertungen gx(m) voraussichtlich verbessert. Das bedeutet, anhand des bereits vorhandenen Wissens wird eine Konfiguration m ausgewählt, die einen besonders großen Zugewinn an Information verspricht und für die die „teure“ Ermittlung der Relevanzbewertung gx(m) unter Nutzung des Bildklassifikators den Aufwand rechtfertigt. Für diese neue Konfiguration m wird dann anhand der vorgegebenen Bewertungsfunktion gx die Relevanzbewertung gx(m) ermittelt. Damit wandert diese neue Konfiguration m von der Teilmenge GN der noch nicht getesteten Konfigurationen m in die Teilmenge GM der bereits getesteten Konfigurationen. Anhand der hierfür in Form von gx(m) neu hinzugewonnenen Information kann dann in der nächsten Iteration die nächste neue Konfiguration m ausgewählt werden.
-
Die Iterationen werden in dieser Weise fortgesetzt, bis eine vorgegebene Mindestanzahl oder Maximalzahl B von Relevanzbewertungen gx(m) ermittelt wurde, und/oder bis diese Relevanzbewertungen gx(m) ein vorgegebenes Qualitätskriterium erfüllen. Anschließend werden
- • aus den Konfigurationen m aus der Teilmenge GM⊂M, für die die Relevanzbewertung gx(m) oberhalb eines vorgegebenen Schwellwerts d liegt, und/oder
- • aus den Top-N Konfigurationen m aus der Teilmenge GM⊂M mit den höchsten Relevanzbewertungen gx(m),
die gesuchten, für den Bildklassifikator entscheidungsrelevanten Anteile x# des Eingabe-Bildes x ermittelt. Beispielsweise kann eine Vereinigungsmenge oder Summe von Pixeln des Eingabe-Bildes x entsprechend den letztendlich ausgewählten Konfigurationen m gebildet werden.
-
Indem in jeder Iteration gezielt solche Konfigurationen m getestet werden, die in der jeweils aktuellen Situation den größten Zugewinn an Information versprechen, kann aus einem vorgegebenen „Budget“ an Nutzung des Bildklassifikators somit die genaueste Aussage über die Entscheidungsrelevanz von Konfigurationen m gewonnen werden, die dieses „Budget“ hergibt.
-
Wie zuvor erläutert, ist dies insbesondere dann hilfreich, wenn direkt im Raum der Eingabe-Bilder x gearbeitet werden muss und die potentielle Anzahl zu untersuchender Konfigurationen m in der Menge M sehr groß ist. Das Verfahren ist aber genauso gut anwendbar, wenn mit einem Zwischenprodukt x' gearbeitet werden kann, das der Bildklassifikator aus dem Eingabe-Bild x erzeugt hat. Beispielsweise können eine oder mehrere Faltungsschichten im Bildklassifikator ein in seiner Dimensionalität stark reduziertes Zwischenprodukt x' erzeugen, das anschließend auf eine Zuordnung zu einer oder mehreren Klassen abgebildet wird. Ein solches Zwischenprodukt x' ist dann immer noch dahingehend räumlich mit dem Eingabe-Bild x korreliert, dass etwa Bildinformation in einer Ecke des Eingabe-Bildes maßgeblich zur hierzu korrespondierenden Ecke des Zwischenprodukts x' beiträgt. Wenn entscheidungsrelevante Konfigurationen m im Raum der Zwischenprodukte x' ermittelt wurden, können diese beispielsweise durch Upsampling in den Raum der Eingabe-Bilder x überführt werden.
-
Die Menge M der Konfigurationen m kann insbesondere beispielsweise von vornherein auf das Ziel optimiert werden, dass die mittlere paarweise Korrelation zwischen Konfigurationen m1 und m2 minimiert wird. Auf diese Weise werden Konfigurationen m mit einer größeren Variabilität zur Wahl gestellt.
-
Die Menge M der Konfigurationen m kann weiterhin beispielsweise unter der Randbedingung zusammengestellt werden, dass
- • die Anzahl der Pixel, in denen sich zwei Konfigurationen m1 und m2 unterscheiden, größer als ein vorgegebener Schwellwert ist, und/oder
- • jede Konfiguration m mindestens eine vorgegeben Anzahl Pixel enthält, und/oder
- • eine Konfiguration m1 möglichst keine Teilmenge einer anderen Konfiguration m2 sein sollte.
-
Auch diese Bedingungen bevorzugen eine größere Variabilität der Konfigurationen m in der Menge M, so dass größere Bereiche des insgesamt zur Verfügung stehenden Raums an Konfigurationen m zumindest in Betracht gezogen werden. Die Menge M wird festgelegt, bevor Relevanzbewertungen gx(m) ermittelt werden. Es gibt zu diesem Zeitpunkt keine statische Grundlage dafür, Bereiche des zunächst zur Verfügung stehenden Raums von vornherein auszuschließen.
-
Die Ähnlichkeit zwischen zwei Konfigurationen m1 und m2 kann beispielsweise mit einer Kern-Funktion (Kernel) ermittelt werden, die die beiden Konfigurationen m1 und m2 auf ein skalares Maß für die Ähnlichkeit abbildet. Diese Kern-Funktion ist symmetrisch und semi-positiv definit. Wenn die Konfigurationen m1 und m2 beispielsweise als Vektoren oder Tensoren vorliegen, kann die Kern-Funktion beispielsweise ein inneres Produkt dieser Vektoren oder Tensoren sein.
-
In einer besonders vorteilhaften Ausgestaltung beinhaltet die von der Bewertungsfunktion gx gelieferte Bewertung gx(m) einen Klassifikations-Score fc, auf den der Bildklassifikator eine Abwandlung x* des Eingabe-Bildes x, bzw. des Zwischenprodukts x', abbildet. Diese Abwandlung x* ist für alle Pixel in der Konfiguration m identisch mit dem Eingabe-Bild x, bzw. mit dem Zwischenprodukt x'. Für alle anderen Pixel ist die Abwandlung x* gegenüber dem Eingabe-Bild x, bzw. gegenüber dem Zwischenprodukt x', verändert. Der Klassifikations-Score gibt quantitativ die Zugehörigkeit der Abwandlung x* zu einer oder mehreren vorgegebenen Klassen an, beispielsweise in Form eines Softmax-Scores oder Logit-Scores. Wenn die Pixel in der Konfiguration m besonders relevant sind, wird das Hinzufügen bzw. Entfernen dieser Pixel im Eingabe-Bild x, bzw. im Zwischenprodukts x', einen starken Anstieg bzw. starken Abfall des Logit-Scores für die entsprechende Klasse bewirken.
-
Die Abwandlung x* kann insbesondere beispielsweise erzeugt werden, indem zu allen Pixeln des Eingabe-Bildes x, bzw. des Zwischenprodukts x', die nicht zur Konfiguration m gehören, jeweils ein hierzu korrespondierender Pixelwert eines Stör-Bildes P addiert wird. Dieses Stör-Bild P kann beispielsweise eine homogene Fläche sein, die etwa mit einem maximalen oder minimalen Intensitätswert belegt ist. Eine homogene Fläche als Stör-Bild P hat den Vorteil, dass sie keine Hinweise auf eine andere Klasse, zu deren Erkennung der Bildklassifikator trainiert ist, einbringt.
-
In einer weiteren vorteilhaften Ausgestaltung wird jede neue ermittelte Relevanzbewertung gx(m) um ein aus einer Zufallsverteilung mit vorgegebener Varianz σ gezogenes Sample ε abgeändert und in dieser abgeänderten Form für das Auswählen neuer Konfigurationen m herangezogen. Auf diese Weise kann ein Verlauf gx(GN) der Relevanzbewertung gx für die noch nicht getesteten Konfigurationen m ∈ GN anhand des Verlaufs gx(GM) für die bereits getesteten Konfigurationen m ∈ GM vorhergesagt werden, ohne dass dieser Verlauf dann für alle Konfigurationen m ∈ GM exakt mit den bisherigen Beobachtungen für diese Konfigurationen m übereinstimmen muss. Vielmehr genügt es, wenn der neu ermittelte Verlauf mit den bisherigen Beobachtungen konsistent ist.
-
In einer besonders vorteilhaften Ausgestaltung wird eine konditionale Wahrscheinlichkeitsverteilung G für die noch nicht ermittelten Relevanzbewertungen gx(m) mit m ∈ GN ermittelt unter der Bedingung, dass gx(m) für m ∈ GM bereits bekannt ist. Die neue Konfiguration m für die nächste Iteration wird unter Heranziehung dieser konditionalen Wahrscheinlichkeitsverteilung G ausgewählt. Auf diese Weise lassen sich von vornherein große Teile des Suchraums innerhalb der Menge M von Konfigurationen m ausschließen. Weiterhin kann die Wahrscheinlichkeit, mit der eine konkrete neue Konfiguration m einen zusätzlichen Informationsgewinn verspricht, quantitativ angegeben werden.
-
Somit wird in einer weiteren vorteilhaften Ausgestaltung eine neue Konfiguration m ausgewählt, für die gemäß der konditionalen Wahrscheinlichkeitsverteilung G die Vorhersage für die Relevanzbewertung gx(m) am größten ist. Dann ist die Wahrscheinlichkeit hoch, dass eine tatsächliche Auswertung der Relevanzbewertung gx(m) für diese neue Konfiguration die Suche dem Ziel eines maximalen gx(m) deutlich näher bringt. Alternativ oder auch in Kombination hierzu kann auch eine neue Konfiguration m ausgewählt werden, für die Unsicherheit dieser Relevanzbewertung gx(m), am größten ist. Die Auswahl einer solchen Konfiguration m verspricht zwar nicht direkt eine Verbesserung der Relevanzbewertung gx(m), aber einen Informationsgewinn für die weitere Suche.
-
Die Suche nach einer Konfiguration m, die die Relevanzbewertung gx(m) maximiert, ist ein Stück weit analog zur Exploration von Bodenschätzen mittels Probebohrungen. Diese Probebohrungen sind in der Regel aufwändig, teuer und an bestimmten Orten im Suchgebiet, beispielsweise unter einem Gebäude, gar nicht möglich. Die Kunst bei der Exploration besteht somit darin, das mögliche Kontingent an Probebohrungen unter Berücksichtigung aller örtlichen Randbedingungen so zu platzieren, dass sich hieraus die räumliche Verteilung des Bodenschatzes im Gebiet zwischen den Probebohrungen möglichst gut vorhersagen lässt (bekannt als „Kriging“).
-
In einer besonders vorteilhaften Ausgestaltung wird die Bewertungsfunktion g
x als Gauß-Prozess modelliert, der von der Konfiguration m als Zufallsvariable abhängt. Ein Gauß-Prozess ist durch einen Erwartungswert µ und seine Kovarianzfunktion Σ bestimmt. Der Verlauf von g
x(G
N) für die noch nicht getesteten Konfigurationen m ∈ G
N unter der Bedingung, dass g
x(G
M) für die bereits getesteten Konfigurationen m ∈ G
M bereits bekannt ist, genügt somit einer Normalverteilung mit Erwartungswert µ
M und Kovarianzfunktion Σ
M:
-
Hierin ist
und
µ(G
N) und µ(G
M) sind die Erwartungswerte von g
x(m) über alle Konfigurationen m ∈ G
N bzw. m ∈ G
M. Σ(G
N, G
N) und Σ(G
M, G
M) sind Kovarianzen innerhalb der Teilmengen G
N bzw. G
M von Konfigurationen m. Σ(G
M, G
N) ist eine Kreuzkovarianz zwischen bereits getesteten Konfigurationen m ∈ G
M und noch nicht getesteten Konfigurationen m ∈ G
N. Die Erwartungswerte µ(G
N) und µ(G
M) müssen nicht explizit berechnet werden, sondern können auch beispielsweise unter Nutzung des Zentralen Grenzwertsatzes der Statistik angenähert werden.
-
Insbesondere können die zuvor erwähnten paarweisen Ähnlichkeiten Σ(m1, m2) als Kovarianzen des Gauß-Prozesses gewertet werden. Sowohl diese Kovarianzen als auch die Erwartungswerte des Gauß-Prozesses können dann Prozesses in Antwort darauf, dass eine neue Relevanzbewertung gx(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden.
-
In einer weiteren besonders vorteilhaften Ausgestaltung werden Konfigurationen in der der Teilmenge GN⊂M der Konfigurationen m, für die noch keine Relevanzbewertung gx(m) vorliegt, in Antwort darauf, dass eine neue Relevanzbewertung gx(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert. Dann kann die zur Verfügung stehende Auswahl an neuen Konfigurationen M, die ganz zu Beginn des Verfahrens ohne Vorausannahmen getroffen wurde, in Ansehung der inzwischen hinzugewonnenen Information erweitert werden.
-
In einer besonders vorteilhaften Ausgestaltung wird ein Bild eines in Serie gefertigten Produkts als Eingabe-Bild x gewählt wird. Die Klassen der Klassifikation repräsentieren dann eine Qualitätsbewertung des Produkts, wie beispielsweise „OK“, „nicht OK = NOK“ oder auch beliebige Abstufungen dazwischen. In diesem Zusammenhang sind insbesondere Erklärungen dafür, warum der Bildklassifikator ein Eingabe-Bild x der Klasse „NOK“ zuordnet, wichtig. Mit solchen Erklärungen lässt sich nicht nur der Bildklassifikator selbst verbessern, sondern es lassen sich auch Erkenntnisse über die mögliche Ursache des Qualitätsproblems gewinnen, die im Fertigungsprozess gesetzt wurde. Wenn beispielsweise eine Vielzahl kleiner lokalisierter Defekte am Produkt für die Einstufung als „NOK“ ausschlaggebend waren und diese Defekte wiederum mit bestimmten physikalischen Bedingungen während der Herstellung des Produkts korreliert sind (wie etwa hohe Temperatur oder hoher Druck), kann gezielt darauf hingewirkt werden, diese Bedingungen zu korrigieren, damit künftig ein größerer Anteil der hergestellten Produktexemplare als „OK“ eingestuft wird.
-
Bei einem aus verschiedenen Einzelteilen oder Baugruppen zusammengesetzten Produkt kann weiterhin beispielsweise erkannt werden, dass die für die Einstufung als „NOK“ ausschlaggebenden Merkmale alle an einem Einzelteil, bzw. in einer Baugruppe, lokalisiert sind. Dies ist ein Hinweis darauf, dass derjenige Teil des Fertigungsprozesses, in dem dieses Einzelteil, bzw. diese Baugruppe, entsteht, möglicherweise mangelhaft arbeitet. Es kann also in eine komplexe Abfolge von Fertigungsschritten gleichsam „chirurgisch“ eingegriffen werden, um Probleme gezielt zu beheben, ohne dabei andere Aspekte zu sehr zu verschlechtern.
-
Die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator seine Entscheidung stützt, können insbesondere beispielsweise mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der anhand einer Beobachtung des gleichen Produkts mit einer anderen Abbildungsmodalität als relevant für die Qualitätsbewertung des Produkts ermittelt wurde. Aus dem Ergebnis dieses Vergleichs kann dann eine Qualitätsbewertung für den Bildklassifikator ermittelt werden. Beispielsweise können Hyperparameter des Bildklassifikators optimiert werden mit dem Ziel, diese Qualitätsbewertung zu optimieren.
-
In einer weiteren besonders vorteilhaften Ausgestaltung wird ein von einem Fahrzeug aus aufgenommenes Bild einer Verkehrssituation als Eingabe-Bild x gewählt. Die Klassen der Klassifikation repräsentieren dann Bewertungen der Verkehrssituation, auf deren Basis das künftige Verhalten des Fahrzeugs geplant wird. Gerade in diesem Anwendungsfeld kann dem Bildklassifikator und einem nachgeschalteten Warnsystem, Fahrassistenzsystem oder System zum zumindest teilweise automatisierten Fahren häufig nur unter der Voraussetzung vertraut werden, dass die Entscheidungen des Bildklassifikators erklärbar sind. Das Verfahren kann genau diese Erklärungen liefern.
-
Die ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator seine Entscheidung stützt, können insbesondere beispielsweise mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der als für die Beurteilung der Verkehrssituation relevant bekannt ist. Aus dem Ergebnis dieses Vergleichs kann dann eine Qualitätsbewertung für den Bildklassifikator ermittelt werden. Analog zum Anwendungsbeispiel der Qualitätskontrolle von in Serie gefertigten Produkten können dann beispielsweise Hyperparameter des Bildklassifikators optimiert werden mit dem Ziel, dass die Qualität des Bildklassifikators danach besser bewertet wird.
-
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
-
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
-
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
-
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
-
Ausführungsbeispiele
-
Es zeigt:
- 1 Ausführungsbeispiel des Verfahrens 100 zum Ermitteln von Bildanteilen x#, die für einen Bildklassifikator 1 entscheidungsrelevant sind;
- 2 Veranschaulichung einer konditionalen Wahrscheinlichkeitsverteilung G für noch nicht ermittelte Relevanzbewertungen gx(m).
-
1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Ermitteln von Bildanteilen x#, die für einen Bildklassifikator 1 entscheidungsrelevant sind.
-
In Schritt 110 wird eine Kandidaten-Menge M von Konfigurationen m von Pixeln bereitgestellt. In dem in 1 gezeigten Beispiel handelt es sich hierbei um Pixel des Eingabe-Bildes x. Wie zuvor erläutert, kann es sich jedoch auch um Pixel eines vom Bildklassifikator 1 aus dem Eingabe-Bild x erzeugten Zwischenprodukts x' handeln. Dieser Fall ist in 1 der Übersichtlichkeit halber nicht eingezeichnet.
-
Die Menge M kann insbesondere beispielsweise gemäß Block 111 auf das Ziel hin optimiert werden, dass die mittlere paarweise Korrelation zwischen Konfigurationen m1 und m2 minimiert wird. Gemäß Block 112 kann die Menge M alternativ oder auch in Kombination hierzu noch unter weiteren Randbedingungen hinsichtlich der Variabilität der in ihr enthaltenen Konfigurationen M zusammengestellt werden.
-
In Schritt 120 werden Ähnlichkeiten Σ(m1, m2) zwischen Paaren von Konfigurationen m1 und m2 aus der Menge M ermittelt, die sich insbesondere beispielsweise in einer Kovarianzmatrix Σ zusammenfassen lassen. Die Menge M sowie die Kovarianzmatrix Σ können insbesondere beispielsweise ohne Ansehung eines konkreten Eingabe-Bildes x, also „offline“, vorausberechnet und für neue Eingabe-Bilder x immer wieder verwendet werden.
-
In Schritt 130 wird aus der Teilmenge GN⊂M der Konfigurationen m, für die noch keine Relevanzbewertung gx(m) vorliegt, eine neue Konfiguration m ausgewählt, die die Relevanzbewertung gx(m) im Vergleich zu den bereits bekannten Relevanzbewertungen gx(m) voraussichtlich verbessert. Für diese ausgewählte neue Konfiguration m wird in Schritt 140 anhand der vorgegebenen Bewertungsfunktion gx eine Relevanzbewertung gx(m) ermittelt. In Schritt 150 wird geprüft, ob eine vorgegebene Mindestanzahl oder Maximalzahl (Budget B) von Relevanzbewertungen gx(m) ermittelt wurde, und/oder ob diese Relevanzbewertungen gx(m) ein vorgegebenes Qualitätskriterium erfüllen. Wenn dies der Fall ist (Wahrheitswert 1), werden in Schritt 160 aus denjenigen Konfigurationen m ∈ GM, für die Relevanzbewertungen gx(m) vorliegen, die gesuchten entscheidungsrelevanten Anteile x# des Eingabe-Bildes x ermittelt.
-
Insbesondere kann beispielsweise gemäß Block 131 in jeder Iteration eine konditionale Wahrscheinlichkeitsverteilung G für die noch nicht ermittelten Relevanzbewertungen gx(m) mit m ∈ GN ermittelt werden unter der Bedingung, dass gx(m) für m ∈ GM bereits bekannt ist. Die neue Konfiguration m kann dann gemäß Block 132 unter Heranziehung dieser konditionalen Wahrscheinlichkeitsverteilung G ausgewählt werden. Insbesondere kann gemäß Block 133 eine neue Konfiguration m ausgewählt werden, für die gemäß der konditionalen Wahrscheinlichkeitsverteilung G die Vorhersage für die Relevanzbewertung gx(m), und/oder für die Unsicherheit dieser Relevanzbewertung gx(m), am größten ist.
-
Zu diesem Zweck kann insbesondere beispielsweise gemäß Block 134 die Bewertungsfunktion gx als Gauß-Prozess modelliert werden, der von der Konfiguration m als Zufallsvariable abhängt. Gemäß Block 134a können dann die zuvor ermittelten Ähnlichkeiten Σ(m1, m2) von Konfigurationen m1 und m2 als Kovarianzen des Gauß-Prozesses gewertet werden.
-
Die von der Bewertungsfunktion gx gelieferte Bewertung gx(m) kann gemäß Block 141 insbesondere beispielsweise einen Klassifikations-Score fc beinhalten, auf den der Bildklassifikator 1 eine Abwandlung x* des Eingabe-Bildes x abbildet. Diese Abwandlung x* kann gemäß Block 141a insbesondere beispielsweise erzeugt werden, indem zu allen Pixeln des Eingabe-Bildes x, die nicht zur Konfiguration m gehören, jeweils ein hierzu korrespondierender Pixelwert eines Stör-Bildes P addiert wird. Beispielsweise kann in einer Verkehrsszenerie die Konfiguration m einen Fußgänger, der eine Straße überquert, ungestört erkennbar lassen, während zugleich die restlichen Pixel des Eingabe-Bildes x auf Null gesetzt werden.
-
Jede neue ermittelte Relevanzbewertung gx(m) kann optional gemäß Block 142 um ein aus einer Zufallsverteilung mit vorgegebener Varianz σ gezogenes Sample ε abgeändert und in dieser abgeänderten Form in weiteren Iterationen für das Auswählen neuer Konfigurationen m herangezogen werden.
-
Kovarianzen und Erwartungswerte eines Gauß-Prozesses, der die Bewertungsfunktion gx modelliert, können gemäß Block 143 im Lichte einer für eine neue Konfiguration m neu ermittelten Relevanzbewertung gx(m) aktualisiert werden.
-
Konfigurationen in der der Teilmenge GN⊂M der Konfigurationen m, für die noch keine Relevanzbewertung gx(m) vorliegt, können gemäß Block 144 in Antwort darauf, dass eine neue Relevanzbewertung gx(m) für eine neue Konfiguration m ermittelt wurde, aktualisiert werden.
-
Das Eingabe-Bild x kann gemäß Block 105 insbesondere beispielsweise ein Bild eines in Serie gefertigten Produkts sein. Die Klassen der Klassifikation repräsentieren dann eine Qualitätsbewertung des Produkts. Die in Schritt 160 ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator 1 seine Entscheidung stützt, können in Schritt 170 mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der anhand einer Beobachtung des gleichen Produkts mit einer anderen Abbildungsmodalität als relevant für die Qualitätsbewertung des Produkts ermittelt wurde.
-
Das Eingabe-Bild x kann alternativ gemäß Block 106 insbesondere beispielsweise ein von einem Fahrzeug aus aufgenommenes Bild sein. Die Klassen der Klassifikation repräsentieren dann Bewertungen der Verkehrssituation, auf deren Basis das künftige Verhalten des Fahrzeugs geplant wird. Die in Schritt 160 ermittelten Anteile x# des Eingabe-Bildes x, auf die der Bildklassifikator 1 seine Entscheidung stützt, können in Schritt 180 mit einem Anteil x## des Eingabe-Bildes x verglichen werden, der aus beliebiger Quelle als für die Beurteilung der Verkehrssituation relevant bekannt ist.
-
Aus den in den Vergleichen 170 bzw. 180 ermittelten Ergebnisse 170a bzw. 180a kann in Schritt 190 eine Qualitätsbewertung 1a des Bildklassifikators 1 ermittelt werden.
-
2 veranschaulicht eine konditionale Wahrscheinlichkeitsverteilung G für noch nicht ermittelte Relevanzbewertungen gx(m). Zur Vereinfachung wird davon ausgegangen, dass sich alle Konfigurationen m in der Menge M entlang einer Achse ordnen lassen. In 2 sind die gemäß der Wahrscheinlichkeitsverteilung G vorhergesagten Werte der Relevanzbewertungen gx(m) über der jeweiligen Konfiguration m aufgetragen.
-
In der in 2 gezeigten Situation sind für vier Konfigurationen m1, m2, m3 und m4 bereits Relevanzbewertungen gx(m) ermittelt worden. Daher ist die Wahrscheinlichkeitsverteilung G unter Nutzung der Information aufgestellt, dass diese vier Relevanzbewertungen gx(m) bekannt sind. Dementsprechend gibt es an diesen vier Stützstellen keinerlei Unsicherheit bezüglich der Relevanzbewertung gx(m). Zwischen den Stützstellen gibt die Wahrscheinlichkeitsverteilung G jedoch einen Konfidenzschlauch C an, in dem gx(m) in Abhängigkeit der Konfiguration m mit einer vorgegebenen Wahrscheinlichkeit verläuft. Konkrete Funktionsverläufe, von denen in 2 zwei Verläufe g1 und g2 beispielhaft eingezeichnet sind, sind durch Sampeln aus der Wahrscheinlichkeitsverteilung G erhältlich.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-