DE102020206994A1

DE102020206994A1 - Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades

Info

Publication number: DE102020206994A1
Application number: DE102020206994.8A
Authority: DE
Inventors: Jens Eric Markus Mehnert
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-12-09
Also published as: CN115605921A; WO2021245156A1; US20230230335A1

Abstract

Vorrichtung (1) für die Klassifikation von Bilddaten (2), umfassend• eine trainierbare Vorverarbeitungseinheit (11, 11a-11d), welche dazu ausgebildet ist, anhand der Bilddaten (2) mindestens eine Vorgabe (3) dahingehend, inwieweit der Detaillierungsgrad der Bilddaten (2) zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen (111) und den Detaillierungsgrad der Bilddaten (2) entsprechend dieser Vorgabe (3) zu reduzieren (112); sowie• einen trainierbaren Klassifikator (12), der dazu ausgebildet ist, die detailreduzierten Bilddaten (4) auf eine Zuordnung (5) zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.Verfahren (100) zum Trainieren der Vorrichtung (1), wobei Parameter (11*), die das Verhalten der trainierbaren Vorverarbeitungseinheit (11, 11a-11d) charakterisieren, werden auf die Ziele optimiert (130), dass die Vorrichtung (1) Lern-Bilddaten (2a) auf Lern-Zuordnungen (5a) abbildet und zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit (11, 11a-11d) an den Lern-Bilddaten (2a) vornimmt, im Mittel einer Vorgabe (3a) entspricht.

Description

Die vorliegende Erfindung betrifft eine Vorrichtung für die Klassifikation von Bilddaten, die insbesondere für das zumindest teilweise automatisierte Führen von Fahrzeugen im Verkehr verwendbar ist.
Stand der Technik
Um ein Fahrzeug sicher im Straßenverkehr führen zu können, ist eine fortwährende Überwachung des Fahrzeugumfelds unerlässlich. Entsprechende Sensoriken liefern Bilder verschiedener Modalitäten. Um hieraus eine maschinell weiterverarbeitbare Information über die Verkehrssituation zu gewinnen, werden trainierbare Klassifikatoren eingesetzt. Derartige Klassifikatoren verarbeiten die Bilddaten zu einer Zuordnung zu einer oder mehreren Klassen einer vorgegebenen Klassifikation. Die Klassen können beispielsweise Verkehrszeichen oder andere Objekte repräsentieren, die in den Bildern zu erkennen sind.
Vielfach können die aufgenommenen Bilder nicht unmittelbar für die Klassifikation verwendet werden, sondern müssen zunächst vorverarbeitet werden. Aus der DE 10 2017 211 331 A1 ist ein System mit einem Vorverarbeitungsmodul bekannt, das sich gezielt trainieren lässt, um die für die eigentliche Verarbeitung der Bilder relevante Information herauszuarbeiten.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde eine Vorrichtung für die Klassifikation von Bilddaten entwickelt. Diese Vorrichtung umfasst eine trainierbare Vorverarbeitungseinheit. Die Vorverarbeitungseinheit ist dazu ausgebildet, anhand der Bilddaten mindestens eine Vorgabe dahingehend, inwieweit der Detaillierungsgrad der Bilddaten zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen und den Detaillierungsgrad der Bilddaten entsprechend zu reduzieren. Die Vorrichtung umfasst weiterhin einen Klassifikator, der dazu ausgebildet ist, die detailreduzierten Bilddaten auf eine Zuordnung zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.
Der Begriff „Klassifikation“ beinhaltet in diesem Zusammenhang auch eine semantische Segmentierung des Bildes, die Pixel oder andere Teilbereiche eines Bildes
Die Bilddaten können beispielsweise Kamerabilder, Videobilder, Radarbilder, Ultraschallbilder oder LIDAR-Bilder sein. Dies sind die Abbildungsmodalitäten, die einzeln oder in Kombination am häufigsten für die Überwachung des Umfelds von Fahrzeugen verwendet werden.
Die Zuordnung zu einer oder mehreren Klassen kann beispielsweise ein „onehot“ Vektor sein, der nur für eine der verfügbaren Klassen eine von Null verschiedene Komponente aufweist. Die Zuordnung kann aber auch beispielsweise ein Softmax-Vektor sein, der mehreren Klassen von Null verschiedene Konfidenzen und/oder Wahrscheinlichkeiten zuordnet, die sich insgesamt zu 1 addieren.
Unter einer trainierbaren Vorverarbeitungseinheit, bzw. einem trainierbaren Klassifikator, wird insbesondere jeweils ein Modul angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines derartigen Moduls insbesondere dergestalt angepasst werden, dass jeweilige Lern-Eingaben von dem jeweiligen Modul, bzw. von der Vorrichtung als Ganzes, möglichst gut auf vorab bekannte zugehörige Lern-Ausgaben abgebildet werden. Die Vorverarbeitungseinheit, bzw. der Klassifikator, kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder ein KNN sein.
Es wurde erkannt, dass ein maximaler Detailreichtum der Bilddaten für sich genommen keine Garantie für eine zutreffende Zuordnung der Bilddaten zu Klassen durch den Klassifikator liefert. Vielmehr kann ein trainierbarer Klassifikator bei einem gegebenen Trainingsstand, der insbesondere durch Art, Zusammensetzung und Qualität der Trainingsdaten sowie die Anzahl der Trainingsepochen charakterisiert ist, nur Bilder mit einem bestimmten Detaillierungsgrad sinnvoll verarbeiten. Werden Bilder mit einem höheren Detaillierungsgrad zugeführt, beispielsweise indem ein Kamerasensor gegen einen neuen Kamerasensor mit einer höheren Pixelauflösung ausgetauscht wird, wird die Genauigkeit der Klassifikation nicht weiter gesteigert. Vielmehr kann die Genauigkeit sogar Schaden nehmen, wenn die Steigerung der Auflösung nicht auch von einer quantitativen und/oder qualitativen Steigerung des Trainings begleitet wird: Die höhere Pixelauflösung kann sich als „Einfallstor“ für Bildrauschen, aber auch für gezielte Angriffe mit „adversarial examples“ erweisen. Letztere sind gezielt in Bilddaten eingebrachte Manipulationen, die einem menschlichen Betrachter des Bildes möglicherweise gar nicht auffallen, jedoch einen Klassifikator dazu veranlassen können, das Bild einer oder mehreren anderen Klassen zuzuordnen.
Es kann also beispielsweise ein bestimmter Trainingsstand dafür ausreichend sein, Bilder mit dem typischen Detaillierungsgrad eines Full HD-Bildes (1920 x 1080 Pixel) zuverlässig zu klassifizieren. Um Bilder mit dem typischen Detaillierungsgrad eines 4K-Bildes (4096 x 2160 Pixel) zuverlässig zu klassifizieren, kann hingegen ein längeres Training, ein Training mit einer größeren Variabilität der Trainingsdaten, und/oder ein Training mit geringerem Label-Rauschen in den Trainingsdaten nötig sein. In einer Situation in einer konkreten Anwendung eines Klassifikators, in der der Trainingsstand des Klassifikators vorgegeben ist, kann die nachträgliche Verringerung des Detaillierungsgrades verhindern, dass die durch übermäßige Detaillierung verursachte Anfälligkeit für Bildrauschen oder „adversarial examples“ zum Tragen kommt.
Dementsprechend kann ausgehend von einer Anwendungssituation, in der ein für die Bildaufnahme zu verwendendes Sensorium und eine Klassifikationsaufgabe gegeben sind, Aufwand für die Gewinnung von Trainingsdaten eingespart werden. Wenn beispielsweise eine Kamera gewählt wird, die eine für die konkrete Aufgabe zu große Detaillierung liefert, kann die nachträgliche Reduzierung des Detaillierungsgrades dazu führen, dass das Training bis auf eine vorgegebene an der Klassifikationsaufgabe zu erzielende Genauigkeit mit weniger Trainingsdaten zu schaffen ist als dies für die gewählte Auflösung der Kamera sonst erforderlich wäre.
Als anschauliches Beispiel sei die Erkennung von Fußgängern genannt. Da Fußgänger die schwächsten Verkehrsteilnehmer sind, ist es absolut wichtig, jeden Fußgänger als solchen zu erkennen. Hingegen ist es nicht wichtig, wie der Fußgänger gekleidet ist, ob die Bekleidung aufgedruckte Motive, Schulterpolster oder andere Accessoires enthält oder welchen Körperbau der Fußgänger hat. Der Detaillierungsgrad in den Bilddaten kann also massiv reduziert werden, ohne dass die Genauigkeit bei der Erkennung von Fußgängern in Verkehrssituationen abnimmt.
Der geringere Detaillierungsgrad wiederum hat zur Folge, dass die Hardware des Klassifikators sparsamer dimensioniert werden kann. Wenn insgesamt weniger Details zu verarbeiten sind, kann das KNN des Klassifikators beispielsweise auf einer kleineren Recheneinheit (etwa GPU) implementiert werden, die weniger kostet und auch weniger Energie verbraucht.
Das Reduzieren des Detaillierungsgrades kann es insbesondere beispielsweise mit sich bringen, dass einfache Veränderungen, und hier insbesondere Veränderungen in einzelnen Bildpixeln, einnivelliert werden. Der Klassifikator geht dann auf derartige Veränderungen nicht mehr ein.
Um den Detaillierungsgrad zu reduzieren, kann prinzipiell jede Übertragungsfunktion verwendet werden, die durch einen oder mehrere optimierbare Parameter charakterisiert ist. Beispielsweise können bestimmte Bildbereiche, auf die es für die Klassifikation nicht ankommt, maskiert werden. Insbesondere dieses Beispiel zeigt, dass die für die jeweilige Anwendung optimale Reduzierung des Detaillierungsgrades für jedes Bild spezifisch ist. Daher ist es wichtig, dass die Vorgabe, inwieweit der Detaillierungsgrad zu reduzieren ist, für jedes Bild aufs Neue aus dem trainierten Zusammenhang abgerufen wird.
In einer besonders vorteilhaften Ausgestaltung sind die Vorverarbeitungseinheit und der Klassifikator als gemeinsames künstliches neuronales Netzwerk, KNN, ausgebildet. Dies erleichtert ein gemeinsames Training beider Module „Hand in Hand“, denn der nötige Detaillierungsgrad kann beispielsweise auch vom Typ eines zu erkennenden Objekts abhängen. Wie zuvor erläutert, ist die konkrete Form eines Fußgängers für dessen Erkennung in der Regel nicht relevant. Hingegen ist es beispielsweise wichtig, anhand der Form eines Fahrzeugs zu unterscheiden, ob es sich um einen PKW oder um einen LKW handelt, weil diese Fahrzeugtypen sich in ihrer Fahrdynamik grundlegend unterscheiden.
Die Ausbildung als gemeinsames KNN erfordert es nicht, dass die Vorverarbeitungseinheit und der Klassifikator in einer gemeinsamen Baugruppe oder sonst räumlich benachbart in Hardware implementiert sind. Maßgeblich ist vielmehr, dass der Teil des gemeinsamen KNN, der die Vorverarbeitungseinheit bildet, und der Teil des KNN, der den Klassifikator bildet, datentechnisch miteinander verbunden sind, so dass die Parameter beider Teile des KNN gemeinsam trainiert werden können.
Die Reduzierung des Detaillierungsgrades kann speziell bei der Überwachung des Umfelds von Fahrzeugen genutzt werden, um innerhalb des Fahrzeugs Übertragungsbandbreite einzusparen. Der Detaillierungsgrad kann bereits in der Nähe des jeweiligen Sensors durch die Vorverarbeitungseinheit reduziert werden. Die detailreduzierten Bilddaten haben dann ein deutlich geringeres Volumen, und/oder sie lassen sich auf Grund ihres geringeren Informationsgehalts für die Übertragung innerhalb des Fahrzeugs zum Klassifikator auf ein deutlich geringeres Volumen komprimieren.
Daher ist in einer weiteren besonders vorteilhaften Ausgestaltung die Vorverarbeitungseinheit über eine dedizierte Breitbandverbindung mit mindestens einer von einem Fahrzeug getragenen Bildquelle verbunden. Die Vorverarbeitungseinheit ist mit dem Klassifikator über ein Bussystem des Fahrzeugs, das von weiteren Bordsystemen des Fahrzeugs mitbenutzt wird, verbunden.
Die meisten heutigen Fahrzeuge sind mit einem CAN-Bus oder anderen Bussystem ausgestattet, an das viele weitere Fahrzeugsysteme angeschlossen sind. Ein solches Bussystem ermöglicht es allen angeschlossenen Teilnehmern, miteinander zu kommunizieren. Gegenüber der früheren Bäume dedizierter Kabel zwischen je zwei Teilnehmern, die miteinander kommunizieren, spart dies erheblichen Verkabelungsaufwand ein. Der Preis hierfür ist jedoch, dass sich die angeschlossenen Teilnehmer die Bandbreite des Bussystems teilen müssen. In der Regel kann immer nur ein Teilnehmer zur Zeit senden. Wenn nun das ganze Fahrzeugumfeld mit einer Mehrzahl von Sensoren (etwa hochauflösenden Kameras) überwacht wird, werden große Datenmengen erzeugt, die sich möglicherweise gar nicht mehr zur Gänze über das Bussystem übertragen lassen. Selbst ein „Highspeed“-CAN-Bus hat nur maximal 1 Mbit/s Bandbreite, was schon für einen Full-HD-Videodatenstrom zu wenig ist. Indem nun aber der Detaillierungsgrad vor der Übertragung über das Bussystem deutlich reduziert wird und die Daten somit verlustbehaftet komprimiert werden, reicht die Bandbreite auch für den Transport der von mehreren Kameras gewonnenen und in gleicher Weise verdichteten Daten aus. Zu diesem Zweck kann die Vorverarbeitungseinheit insbesondere beispielsweise Teil eines Sensormoduls für die Aufnahme von Bilddaten aus einem Fahrzeugumfelds sein.
In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Bilddaten in eine Repräsentation in einem Arbeitsraum zu transformieren und den Detaillierungsgrad dieser Repräsentation zu reduzieren. Wenn sich in dem verwendeten Arbeitsraum die für die jeweilige Anwendung wichtigen Details besonders gut von den weniger wichtigen Details unterscheiden lassen, können auf diese Weise mehr wichtige Details erhalten und mehr unwichtige Details weggelassen werden. Die Repräsentation kann dann beispielsweise wieder in den Raum zurücktransformiert werden, dem auch die ursprünglichen Bilddaten angehören. Dies hat den Vorteil, dass der Klassifikator selbst nicht geändert werden muss, sondern weiterhin so arbeiten kann, als würden ihm die ursprünglichen Bilddaten zugeführt. Die Repräsentation kann aber auch beispielsweise direkt durch den Klassifikator weiterverarbeitet werden. Dies ist insbesondere dann vorteilhaft, wenn die Rücktransformation in den Raum der ursprünglichen Bilddaten schwieriger oder gar nicht eindeutig möglich ist.
In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Repräsentation in dem Arbeitsraum als eine durch einen Satz von Koeffizienten charakterisierte Linearkombination von Basisfunktionen des Arbeitsraums zu ermitteln. Die Vorverarbeitungseinheit ist weiterhin dazu ausgebildet, anhand der Bilddaten mindestens eine Vorgabe dahingehend, welche Koeffizienten betragsmäßig zu reduzieren oder zu eliminieren sind, aus dem trainierten Zusammenhang abzurufen und Koeffizienten der Repräsentation entsprechend dieser Vorgabe zu reduzieren oder zu eliminieren.
In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Repräsentation in dem Arbeitsraum als durch einen Satz von Wavelet-Koeffizienten charakterisierte Linearkombination von Wavelets zu ermitteln. Wavelets sind Funktionen, die nur in einem begrenzten Gebiet ihres (räumlichen) Definitionsbereichs von Null verschieden sind. Ein Wavelet („Mutter-Wavelet“) kann insbesondere beispielsweise ein ganzes System von Funktionen auf unterschiedlichen Größenskalen erzeugen, das dann für eine Multiskalenanalyse der Bilddaten verwendet werden kann. Wavelets zeichnen sich weiterhin dadurch aus, dass Nutzinhalte von Bildern typischerweise nur in wenigen betragsmäßig großen Wavelet-Koeffizienten konzentriert sind, während etwa weißes Rauschen über viele betragsmäßig kleine Wavelet-Koeffizienten verschmiert ist.
Um den Detaillierungsgrad zu reduzieren, können insbesondere beispielsweise Wavelet-Koeffizienten, die sich auf größere räumliche Bildbereiche beziehen, gegenüber Wavelet-Koeffizienten, die sich auf feinere Details beziehen, bevorzugt werden. Die solchermaßen bevorzugten Bildanteile sind besonders robust gegen Rauschen im ursprünglichen Bild und auch gegen Verfälschungen des ursprünglichen Bildes mit einem „adversarial example“. Das heißt, das Rauschen, bzw. die Manipulation mit dem „adversarial example“, wird durch die Vorverarbeitungseinheit einnivelliert und erreicht den Klassifikator nicht mehr.
An Stelle der Wavelet-Transformation können beispielsweise auch die diskrete Cosinus-Transformation oder die Fourier-Transformation genutzt werden.
In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, einen zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, als Vorgabe abzurufen. Der gelernte Zusammenhang kann also beispielsweise vorschlagen, bestimmte Bilder in allen Details zu berücksichtigen, von anderen Bildern jedoch 50 % und mehr der Details zu streichen.
Beispielsweise kann die Vorverarbeitungseinheit lernen, dass ein gestochen scharfes Bild in allen Details berücksichtigt werden kann, während ein verwackeltes oder aus anderen Gründen unscharfes Bild in seinem Detaillierungsgrad deutlich zu reduzieren ist. Dadurch kann verhindert werden, dass beispielsweise Rauschen in eine solchen unscharfen Bild das Vorhandensein wichtiger Details suggeriert, die in Wahrheit gar nicht da sind.
Der zahlenmäßige Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, kann insbesondere beispielsweise unter Heranziehung der Entropie der Bilddaten ermittelt werden.
Es kann auch beispielsweise eine feste Quote für Koeffizienten, die nicht verändert werden sollen, festgelegt werden, die dann auch wieder beispielsweise abhängig von der Größenskala des Wavelets festgelegt werden kann. So kann beispielsweise die Anzahl der Koeffizienten, die nicht verändert werden sollen, für die größte Größenskala (Ordnung 0) auf einen Hyperparameter a und dann für kleinere Größenskalen (Ordnung i=1, 2, 3, ..) auf aⁱ festgelegt werden, wobei auf die nächstgrößere ganze Zahl aufzurunden ist.
Alternativ kann die Vorverarbeitungseinheit auch dazu ausgebildet sein, anhand der Bilddaten aus dem trainierten Zusammenhang eine Dimensionalität für einen latenten Raum eines Autoencoders als Arbeitsraum abzurufen und die Bilddaten mit dem Autoencoder in diesen Arbeitsraum zu transformieren. Ein Autoencoder ist in diesem Zusammenhang ein trainierbares Modul, das die Bilddaten in eine Repräsentation mit einer deutlich reduzierten Dimensionalität umwandelt. Diese Repräsentation kann dann von einem zugehörigen Decoder wieder in Bilddaten zurückübersetzt werden, die den ursprünglichen Bilddaten sehr ähnlich sind. Typischerweise werden der Encoder und der Decoder gemeinsam auf das Ziel trainiert, dass die zurückübersetzten Bilddaten den ursprünglichen Bilddaten möglichst ähnlich sind.
In dieser Ausgestaltung ist die Dimensionalität für den latenten Raum die Stellschraube hinsichtlich des Detaillierungsgrades der Bilddaten. Die Repräsentation im latenten Raum als Arbeitsraum kann vom Klassifikator unmittelbar weiterverarbeitet werden. Es können aber auch die zurückübersetzten Bilddaten vom Klassifikator weiterverarbeitet werden.
Die von der Vorrichtung gelieferte Zuordnung der Bilddaten zu einer oder mehreren Klassen kann beispielsweise in einem Fahrzeug von einem Fahrassistenzsystem und/oder einem System für das zumindest teilweise automatisierte Fahren in beliebiger Weise ausgewertet und zur Grundlage für die Planung von Fahrmanövern gemacht werden. Insbesondere kann die Vorrichtung als Datenquelle für beliebige derartige Systeme genutzt werden.
Die Erfindung bezieht sich auch auf ein Verfahren zum Trainieren speziell derjenigen Ausgestaltung der Vorrichtung, in der die Vorverarbeitungseinheit die Bilddaten in eine Repräsentation in einem Arbeitsraum (etwa Raum der Wavelet-Koeffizienten oder latenter Raum) transformiert.
Im Rahmen dieses Verfahrens werden Lern-Bilddaten und zugehörige Lern-Zuordnungen, auf die die Vorrichtung die Lern-Bilddaten nominell abbilden soll, bereitgestellt. Weiterhin wird eine Vorgabe für die Reduzierung des Detaillierungsgrades, die während des Trainings im Mittel angestrebt wird, als Hyperparameter festgelegt. Parameter, die das Verhalten der trainierbaren Vorverarbeitungseinheit der Vorrichtung charakterisieren, werden nun auf die Ziele optimiert, dass

• die Vorrichtung die Lern-Bilddaten auf die Lern-Zuordnungen abbildet und
• zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit an den Lern-Bilddaten vornimmt, im Mittel der Vorgabe entspricht.

Wie zuvor bereits erwähnt, wird durch den Hyperparameter festgelegt, welcher Anteil der ursprünglich aufgenommenen Details dem Klassifikator im Mittel zugeführt wird. Beim Training der Parameter der Vorverarbeitungseinheit wird dann gelernt, diese vorgegebene „Ration“ an Information so auf die verschiedenen Lern-Bilder zu verteilen, dass der Klassifikator letztendlich eine optimale Genauigkeit liefert. Sei beispielsweise die Vorgabe, dass im Mittel der Detaillierungsgrad um 50 % zu reduzieren ist. Dann können am Ende des Trainings beispielsweise von einer Million Bilder einige wenige Bilder als Schlüssel-Bilder ausgewählt sein, die in allen Details berücksichtigt werden, während von den meisten anderen Bildern 95 % der Details unberücksichtigt bleiben.
Es ist zu erwarten, dass sich in der konkreten Anwendung für den Hyperparameter ein Optimum einstellt, das beispielsweise abhängig sein kann von der Architektur und Größe des KNN, von Art, Label-Qualität und Variabilität der Trainingsdaten, von der Lernrate sowie von der Pixelanzahl der verarbeiteten Bilder. Dieses Optimum kann über ein beliebiges Parameteroptimierungsverfahren erhalten werden.
In einer besonders vorteilhaften Ausgestaltung werden zusätzlich Parameter, die das Verhalten des Klassifikators der Vorrichtung charakterisieren, auf das Ziel optimiert, dass die Vorrichtung die Lern-Bilddaten auf die Lern-Zuordnungen abbildet. Wie zuvor erläutert, können dann die Vorverarbeitungseinrichtung einerseits und der Klassifikator andererseits „Hand in Hand“ trainiert werden, beispielsweise gleichzeitig, alternierend oder sonstwie im Wechsel. Der Klassifikator kann als beispielsweise im Rahmen seines Trainingsfortschritts lernen, welche Details in Bildern für die Entscheidung zwischen Klassen besonders relevant sind, und die Vorverarbeitungseinheit kann lernen, diese Details in den Bilddaten herauszuarbeiten.
In einer weiteren besonders vorteilhaften Ausgestaltung wird die Optimierung der Parameter, die das Verhalten des Klassifikators charakterisieren, zusätzlich auch auf das Ziel gerichtet, dass der Detaillierungsgrad der vom Klassifikator genutzten Bilddaten möglichst gering ist. Dadurch wird die Tendenz des Klassifikators verstärkt, Entscheidungen über Klassenzuordnungen eher von langsam veränderlichen Anteilen des Bildes abhängig zu machen. Dies erhöht die Robustheit gegen Rauschen und gegen „adversarial examples“ zusätzlich.
Sowohl die Vorrichtung als auch Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer zu der zuvor beschrieben Vorrichtung aufwerten, und/oder dazu veranlassen, das zuvor beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel der Vorrichtung 1;
2 Weiteres Ausführungsbeispiel der Vorrichtung 1 in einem Fahrzeug 6;
3 Schematisches Beispiel für die Detailreduzierung am Beispiel eines Fußgängers 4;
4 Ausführungsbeispiel des Verfahrens 100.

1 zeigt ein Ausführungsbeispiel der Vorrichtung 1 für die Klassifikation von Bilddaten 2. Die Vorrichtung 1 umfasst eine trainierbare Vorverarbeitungseinheit 11 und einen Klassifikator 12.
Die Vorverarbeitungseinheit 11 nimmt Bilddaten 2 aus einer beliebigen Quelle entgegen und ermittelt in einem Block 111 anhand dieser Bilddaten 2 mindestens eine Vorgabe 3 dahingehend, inwieweit der Detaillierungsgrad der Bilddaten 2 zu reduzieren ist. In Block 112 wird der Detaillierungsgrad der Bilddaten 2 entsprechend dieser Vorgabe 3 reduziert, so dass detailreduzierte Bilddaten 4 entstehen. Diese detailreduzierten Bilddaten 4 werden auf eine Zuordnung 5 zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abgebildet.
2 zeigt ein weiteres Ausführungsbeispiel der Vorrichtung 1, die in einem Fahrzeug 6 verbaut ist. Das Fahrzeug 6 verfügt über vier Kameras 61a-61d, die Bereiche 60a-60d des Umfelds des Fahrzeugs 6 überwachen. Jede dieser Kameras 61a-61d liefert Bilddaten 2 über eine dedizierte Breitbandverbindung 62a-62d an eine jeweils zugeordneten Vorverarbeitungseinheit 11a-11d. Alle Vorverarbeitungseinheiten 11a-11d sind mit einem zentralen Bussystem 63 des Fahrzeugs 6 verbunden, das auch von weiteren Bordsystemen 64-66 des Fahrzeugs 6 mitbenutzt wird. Die Vorverarbeitungseinheiten 11a-11d liefern stark komprimierte detailreduzierte Bilddaten 4 an den trainierbaren Klassifikator 12. Auf diese Weise kann der Klassifikator 12 die wichtigsten Details der Bilddaten 2 verarbeiten, ohne dass der volle Datenstrom der Bilddaten 2 über das hierfür nicht ausgelegte Bussystem 63 des Fahrzeugs 6 übertragen werden muss. Die Rückwirkung vom Klassifikator auf Aktoren des Fahrzeugs 6 ist in 2 der Übersichtlichkeit halber nicht eingezeichnet.
3 zeigt ein Beispiel für die Detailreduktion am Beispiel eines Fußgängers 7. 3a ist eine Schemazeichnung von Bilddaten 2, die eine Kamera liefert. Der Fußgänger 7 hat ein Gesicht 71 mit ausgeprägten Gesichtsmerkmalen. Er trägt weiterhin ein T-Shirt 72 mit einer Aufschrift 73 und Schulterpolstern 74.
All diese Details sind für die wichtige Erkennung, dass es sich um einen Fußgänger handelt, nicht relevant. Gewisse Details könnten einen Klassifikator 12 sogar ablenken. So könnten beispielsweise bestimmte Gesichtszüge im Gesicht 71 oder ein zerfledderter Zustand des T-Shirts 72 den Klassifikator 12 zur Falschklassifikation des Fußgängers 7 als Vogelscheuche veranlassen. Ebenso könnten die Schulterpolster 74 den Klassifikator 12 zur Falschklassifikation des Fußgängers 7 als Schaufensterpuppe veranlassen. Beides wäre nachteilig für den Fußgänger 7, denn ein System für das zumindest teilweise automatisierte Fahren würde davon ausgehen, dass bei einer Kollision mit einer Vogelscheuche oder einer Schaufensterpuppe nur geringer Sachschaden entsteht, und im Zweifel dieser Kollision den Vorzug vor einer Kollision mit einem anderen Fahrzeug geben. Ähnliches könnte passieren, wenn die Falschklassifikation durch ein manipulatives „Adversarial“-Muster 75 in den Bilddaten 2, bewirkt etwa durch einen halbdurchlässigen Aufkleber auf der Kameralinse, bewusst herbeigeführt wird.
3b zeigt die detailreduzierten Bilddaten 4. Hier ist nur noch abstrakt zu erkennen, dass es sich um einen Fußgänger 7 handelt. Alle weiteren Details sind weggelassen, so dass für ihre Verarbeitung keine weitere Bandbreite und Rechenkapazität mehr erforderlich sind. Auch das „Adversarial“-Muster 75 ist zu einem homogenen Fleck geglättet und somit unschädlich gemacht worden.
4 zeigt ein Ausführungsbeispiel des Verfahrens 100 zum Trainieren der Vorrichtung 1. In Schritt 110 werden Lern-Bilddaten 2a und zugehörige Lern-Zuordnungen 5a bereitgestellt. In Schritt 120 wird eine Vorgabe 3a für die Reduzierung des Detaillierungsgrades der Lern-Bilddaten 2a, die im Mittel angestrebt wird, festgelegt. In Schritt 130 werden Parameter 11*, die das Verhalten der trainierbaren Vorverarbeitungseinheit 11, 11a-11d der Vorrichtung 1 charakterisieren, auf die Ziele optimiert, dass

• die Vorrichtung 1 die Lern-Bilddaten 2a auf die Lern-Zuordnungen 5a abbildet und
• zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit 11, 11a-11d an den Lern-Bilddaten 2a vornimmt, im Mittel der Vorgabe 3a entspricht.

Zusätzlich werden in diesem Ausführungsbeispiel in Schritt 140 auch Parameter 12*, die das Verhalten des Klassifikators 12 der Vorrichtung 1 charakterisieren, auf das Ziel optimiert, dass die Vorrichtung 1 die Lern-Bilddaten 2a auf die Lern-Zuordnungen 5a abbildet. Dieses Training ist mit dem Training 130 der Parameter 11* der Vorverarbeitungseinheit 11, 11a-11d verzahnt.
Gemäß Block 141 wird auch die Optimierung 140 der Parameter 12* des Klassifikators 12 zusätzlich auch auf das Ziel gerichtet, dass der Detaillierungsgrad der vom Klassifikator 12 genutzten Bilddaten 2 möglichst gering ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102017211331 A1 [0003]

Claims

Vorrichtung (1) für die Klassifikation von Bilddaten (2), umfassend • eine trainierbare Vorverarbeitungseinheit (11, 11a-11d), welche dazu ausgebildet ist, anhand der Bilddaten (2) mindestens eine Vorgabe (3) dahingehend, inwieweit der Detaillierungsgrad der Bilddaten (2) zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen (111) und den Detaillierungsgrad der Bilddaten (2) entsprechend dieser Vorgabe (3) zu reduzieren (112); sowie • einen trainierbaren Klassifikator (12), der dazu ausgebildet ist, die detailreduzierten Bilddaten (4) auf eine Zuordnung (5) zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.
Vorrichtung (1) nach Anspruch 1, wobei die Vorverarbeitungseinheit (11, 11a-11d) und der Klassifikator (12) als gemeinsames künstliches neuronales Netzwerk, KNN, ausgebildet sind.
Vorrichtung (1) nach einem der Ansprüche 1 bis 2, wobei • die Vorverarbeitungseinheit (11, 11a-11d) über eine dedizierte Breitbandverbindung (62a-62d) mit mindestens einer von einem Fahrzeug (6) getragenen Bildquelle (61a-61d) verbunden ist und • die Vorverarbeitungseinheit (11, 11a-11d) mit dem Klassifikator (12) über ein Bussystem (63) des Fahrzeugs (6), das von weiteren Bordsystemen (64-66) des Fahrzeugs (6) mitbenutzt wird, verbunden ist.
Vorrichtung (1) nach einem der Ansprüche 1 bis 3, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • die Bilddaten (2) in eine Repräsentation in einem Arbeitsraum zu transformieren und • den Detaillierungsgrad dieser Repräsentation zu reduzieren.
Vorrichtung (1) nach Anspruch 4, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • die Repräsentation im dem Arbeitsraum als eine durch einen Satz von Koeffizienten charakterisierte Linearkombination von Basisfunktionen des Arbeitsraums zu ermitteln, • anhand der Bilddaten (2) mindestens eine Vorgabe dahingehend, welche Koeffizienten betragsmäßig zu reduzieren oder zu eliminieren sind, aus dem trainierten Zusammenhang abzurufen und • Koeffizienten der Repräsentation entsprechend dieser Vorgabe zu reduzieren oder zu eliminieren.
Vorrichtung (1) nach Anspruch 5, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, die Repräsentation in dem Arbeitsraum als durch einen Satz von Wavelet-Koeffizienten charakterisierte Linearkombination von Wavelets zu ermitteln.
Vorrichtung (1) nach einem der Ansprüche 5 bis 6, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, einen zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, als Vorgabe (3) abzurufen.
Vorrichtung (1) nach Anspruch 7, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, den zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, unter Heranziehung der Entropie der Bilddaten (2) zu ermitteln.
Vorrichtung nach Anspruch 4, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • anhand der Bilddaten (2) aus dem trainierten Zusammenhang eine Dimensionalität für einen latenten Raum eines Autoencoders als Arbeitsraum abzurufen und • die Bilddaten (2) mit dem Autoencoder in diesen Arbeitsraum zu transformieren.
Verfahren (100) zum Trainieren einer Vorrichtung (1) nach einem der Ansprüche 4 bis 9 mit den Schritten: • Lern-Bilddaten (2a) und zugehörige Lern-Zuordnungen (5a), auf die die Vorrichtung (1) die Lern-Bilddaten (2a) nominell abbilden soll, werden bereitgestellt (110); • eine Vorgabe (3a) für die Reduzierung des Detaillierungsgrades, die im Mittel angestrebt wird, wird festgelegt (120); und • Parameter (11*), die das Verhalten der trainierbaren Vorverarbeitungseinheit (11, 11a-11d) der Vorrichtung (1) charakterisieren, werden auf die Ziele optimiert (130), dass die Vorrichtung (1) die Lern-Bilddaten (2a) auf die Lern-Zuordnungen (5a) abbildet und zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit (11, 11a-11d) an den Lern-Bilddaten (2a) vornimmt, im Mittel der Vorgabe (3a) entspricht.
Verfahren (100) nach Anspruch 10, wobei zusätzlich Parameter (12*), die das Verhalten des Klassifikators (12) der Vorrichtung (1) charakterisieren, auf das Ziel optimiert werden (140), dass die Vorrichtung (1) die Lern-Bilddaten (2a) auf die Lern-Zuordnungen (5a) abbildet.
Verfahren (100) nach Anspruch 11, wobei die Optimierung (140) der Parameter (12*), die das Verhalten des Klassifikators (12) charakterisieren, zusätzlich auch auf das Ziel gerichtet wird (141), dass der Detaillierungsgrad der vom Klassifikator (12) genutzten Bilddaten (2) möglichst gering ist.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer zu einer Vorrichtung (1) nach einem der Ansprüche 1 bis 9 aufwerten, und/oder dazu veranlassen, ein Verfahren (100) nach einem der Ansprüche 10 bis 12 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.