DE102020206994A1 - Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades - Google Patents

Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades Download PDF

Info

Publication number
DE102020206994A1
DE102020206994A1 DE102020206994.8A DE102020206994A DE102020206994A1 DE 102020206994 A1 DE102020206994 A1 DE 102020206994A1 DE 102020206994 A DE102020206994 A DE 102020206994A DE 102020206994 A1 DE102020206994 A1 DE 102020206994A1
Authority
DE
Germany
Prior art keywords
image data
preprocessing unit
detail
level
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020206994.8A
Other languages
English (en)
Inventor
Jens Eric Markus Mehnert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020206994.8A priority Critical patent/DE102020206994A1/de
Priority to CN202180039864.2A priority patent/CN115605921A/zh
Priority to PCT/EP2021/064833 priority patent/WO2021245156A1/de
Priority to US18/000,568 priority patent/US20230230335A1/en
Publication of DE102020206994A1 publication Critical patent/DE102020206994A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • H04L12/40032Details regarding a bus interface enhancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

Vorrichtung (1) für die Klassifikation von Bilddaten (2), umfassend• eine trainierbare Vorverarbeitungseinheit (11, 11a-11d), welche dazu ausgebildet ist, anhand der Bilddaten (2) mindestens eine Vorgabe (3) dahingehend, inwieweit der Detaillierungsgrad der Bilddaten (2) zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen (111) und den Detaillierungsgrad der Bilddaten (2) entsprechend dieser Vorgabe (3) zu reduzieren (112); sowie• einen trainierbaren Klassifikator (12), der dazu ausgebildet ist, die detailreduzierten Bilddaten (4) auf eine Zuordnung (5) zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.Verfahren (100) zum Trainieren der Vorrichtung (1), wobei Parameter (11*), die das Verhalten der trainierbaren Vorverarbeitungseinheit (11, 11a-11d) charakterisieren, werden auf die Ziele optimiert (130), dass die Vorrichtung (1) Lern-Bilddaten (2a) auf Lern-Zuordnungen (5a) abbildet und zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit (11, 11a-11d) an den Lern-Bilddaten (2a) vornimmt, im Mittel einer Vorgabe (3a) entspricht.

Description

  • Die vorliegende Erfindung betrifft eine Vorrichtung für die Klassifikation von Bilddaten, die insbesondere für das zumindest teilweise automatisierte Führen von Fahrzeugen im Verkehr verwendbar ist.
  • Stand der Technik
  • Um ein Fahrzeug sicher im Straßenverkehr führen zu können, ist eine fortwährende Überwachung des Fahrzeugumfelds unerlässlich. Entsprechende Sensoriken liefern Bilder verschiedener Modalitäten. Um hieraus eine maschinell weiterverarbeitbare Information über die Verkehrssituation zu gewinnen, werden trainierbare Klassifikatoren eingesetzt. Derartige Klassifikatoren verarbeiten die Bilddaten zu einer Zuordnung zu einer oder mehreren Klassen einer vorgegebenen Klassifikation. Die Klassen können beispielsweise Verkehrszeichen oder andere Objekte repräsentieren, die in den Bildern zu erkennen sind.
  • Vielfach können die aufgenommenen Bilder nicht unmittelbar für die Klassifikation verwendet werden, sondern müssen zunächst vorverarbeitet werden. Aus der DE 10 2017 211 331 A1 ist ein System mit einem Vorverarbeitungsmodul bekannt, das sich gezielt trainieren lässt, um die für die eigentliche Verarbeitung der Bilder relevante Information herauszuarbeiten.
  • Offenbarung der Erfindung
  • Im Rahmen der Erfindung wurde eine Vorrichtung für die Klassifikation von Bilddaten entwickelt. Diese Vorrichtung umfasst eine trainierbare Vorverarbeitungseinheit. Die Vorverarbeitungseinheit ist dazu ausgebildet, anhand der Bilddaten mindestens eine Vorgabe dahingehend, inwieweit der Detaillierungsgrad der Bilddaten zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen und den Detaillierungsgrad der Bilddaten entsprechend zu reduzieren. Die Vorrichtung umfasst weiterhin einen Klassifikator, der dazu ausgebildet ist, die detailreduzierten Bilddaten auf eine Zuordnung zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.
  • Der Begriff „Klassifikation“ beinhaltet in diesem Zusammenhang auch eine semantische Segmentierung des Bildes, die Pixel oder andere Teilbereiche eines Bildes
  • Die Bilddaten können beispielsweise Kamerabilder, Videobilder, Radarbilder, Ultraschallbilder oder LIDAR-Bilder sein. Dies sind die Abbildungsmodalitäten, die einzeln oder in Kombination am häufigsten für die Überwachung des Umfelds von Fahrzeugen verwendet werden.
  • Die Zuordnung zu einer oder mehreren Klassen kann beispielsweise ein „onehot“ Vektor sein, der nur für eine der verfügbaren Klassen eine von Null verschiedene Komponente aufweist. Die Zuordnung kann aber auch beispielsweise ein Softmax-Vektor sein, der mehreren Klassen von Null verschiedene Konfidenzen und/oder Wahrscheinlichkeiten zuordnet, die sich insgesamt zu 1 addieren.
  • Unter einer trainierbaren Vorverarbeitungseinheit, bzw. einem trainierbaren Klassifikator, wird insbesondere jeweils ein Modul angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines derartigen Moduls insbesondere dergestalt angepasst werden, dass jeweilige Lern-Eingaben von dem jeweiligen Modul, bzw. von der Vorrichtung als Ganzes, möglichst gut auf vorab bekannte zugehörige Lern-Ausgaben abgebildet werden. Die Vorverarbeitungseinheit, bzw. der Klassifikator, kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder ein KNN sein.
  • Es wurde erkannt, dass ein maximaler Detailreichtum der Bilddaten für sich genommen keine Garantie für eine zutreffende Zuordnung der Bilddaten zu Klassen durch den Klassifikator liefert. Vielmehr kann ein trainierbarer Klassifikator bei einem gegebenen Trainingsstand, der insbesondere durch Art, Zusammensetzung und Qualität der Trainingsdaten sowie die Anzahl der Trainingsepochen charakterisiert ist, nur Bilder mit einem bestimmten Detaillierungsgrad sinnvoll verarbeiten. Werden Bilder mit einem höheren Detaillierungsgrad zugeführt, beispielsweise indem ein Kamerasensor gegen einen neuen Kamerasensor mit einer höheren Pixelauflösung ausgetauscht wird, wird die Genauigkeit der Klassifikation nicht weiter gesteigert. Vielmehr kann die Genauigkeit sogar Schaden nehmen, wenn die Steigerung der Auflösung nicht auch von einer quantitativen und/oder qualitativen Steigerung des Trainings begleitet wird: Die höhere Pixelauflösung kann sich als „Einfallstor“ für Bildrauschen, aber auch für gezielte Angriffe mit „adversarial examples“ erweisen. Letztere sind gezielt in Bilddaten eingebrachte Manipulationen, die einem menschlichen Betrachter des Bildes möglicherweise gar nicht auffallen, jedoch einen Klassifikator dazu veranlassen können, das Bild einer oder mehreren anderen Klassen zuzuordnen.
  • Es kann also beispielsweise ein bestimmter Trainingsstand dafür ausreichend sein, Bilder mit dem typischen Detaillierungsgrad eines Full HD-Bildes (1920 x 1080 Pixel) zuverlässig zu klassifizieren. Um Bilder mit dem typischen Detaillierungsgrad eines 4K-Bildes (4096 x 2160 Pixel) zuverlässig zu klassifizieren, kann hingegen ein längeres Training, ein Training mit einer größeren Variabilität der Trainingsdaten, und/oder ein Training mit geringerem Label-Rauschen in den Trainingsdaten nötig sein. In einer Situation in einer konkreten Anwendung eines Klassifikators, in der der Trainingsstand des Klassifikators vorgegeben ist, kann die nachträgliche Verringerung des Detaillierungsgrades verhindern, dass die durch übermäßige Detaillierung verursachte Anfälligkeit für Bildrauschen oder „adversarial examples“ zum Tragen kommt.
  • Dementsprechend kann ausgehend von einer Anwendungssituation, in der ein für die Bildaufnahme zu verwendendes Sensorium und eine Klassifikationsaufgabe gegeben sind, Aufwand für die Gewinnung von Trainingsdaten eingespart werden. Wenn beispielsweise eine Kamera gewählt wird, die eine für die konkrete Aufgabe zu große Detaillierung liefert, kann die nachträgliche Reduzierung des Detaillierungsgrades dazu führen, dass das Training bis auf eine vorgegebene an der Klassifikationsaufgabe zu erzielende Genauigkeit mit weniger Trainingsdaten zu schaffen ist als dies für die gewählte Auflösung der Kamera sonst erforderlich wäre.
  • Als anschauliches Beispiel sei die Erkennung von Fußgängern genannt. Da Fußgänger die schwächsten Verkehrsteilnehmer sind, ist es absolut wichtig, jeden Fußgänger als solchen zu erkennen. Hingegen ist es nicht wichtig, wie der Fußgänger gekleidet ist, ob die Bekleidung aufgedruckte Motive, Schulterpolster oder andere Accessoires enthält oder welchen Körperbau der Fußgänger hat. Der Detaillierungsgrad in den Bilddaten kann also massiv reduziert werden, ohne dass die Genauigkeit bei der Erkennung von Fußgängern in Verkehrssituationen abnimmt.
  • Der geringere Detaillierungsgrad wiederum hat zur Folge, dass die Hardware des Klassifikators sparsamer dimensioniert werden kann. Wenn insgesamt weniger Details zu verarbeiten sind, kann das KNN des Klassifikators beispielsweise auf einer kleineren Recheneinheit (etwa GPU) implementiert werden, die weniger kostet und auch weniger Energie verbraucht.
  • Das Reduzieren des Detaillierungsgrades kann es insbesondere beispielsweise mit sich bringen, dass einfache Veränderungen, und hier insbesondere Veränderungen in einzelnen Bildpixeln, einnivelliert werden. Der Klassifikator geht dann auf derartige Veränderungen nicht mehr ein.
  • Um den Detaillierungsgrad zu reduzieren, kann prinzipiell jede Übertragungsfunktion verwendet werden, die durch einen oder mehrere optimierbare Parameter charakterisiert ist. Beispielsweise können bestimmte Bildbereiche, auf die es für die Klassifikation nicht ankommt, maskiert werden. Insbesondere dieses Beispiel zeigt, dass die für die jeweilige Anwendung optimale Reduzierung des Detaillierungsgrades für jedes Bild spezifisch ist. Daher ist es wichtig, dass die Vorgabe, inwieweit der Detaillierungsgrad zu reduzieren ist, für jedes Bild aufs Neue aus dem trainierten Zusammenhang abgerufen wird.
  • In einer besonders vorteilhaften Ausgestaltung sind die Vorverarbeitungseinheit und der Klassifikator als gemeinsames künstliches neuronales Netzwerk, KNN, ausgebildet. Dies erleichtert ein gemeinsames Training beider Module „Hand in Hand“, denn der nötige Detaillierungsgrad kann beispielsweise auch vom Typ eines zu erkennenden Objekts abhängen. Wie zuvor erläutert, ist die konkrete Form eines Fußgängers für dessen Erkennung in der Regel nicht relevant. Hingegen ist es beispielsweise wichtig, anhand der Form eines Fahrzeugs zu unterscheiden, ob es sich um einen PKW oder um einen LKW handelt, weil diese Fahrzeugtypen sich in ihrer Fahrdynamik grundlegend unterscheiden.
  • Die Ausbildung als gemeinsames KNN erfordert es nicht, dass die Vorverarbeitungseinheit und der Klassifikator in einer gemeinsamen Baugruppe oder sonst räumlich benachbart in Hardware implementiert sind. Maßgeblich ist vielmehr, dass der Teil des gemeinsamen KNN, der die Vorverarbeitungseinheit bildet, und der Teil des KNN, der den Klassifikator bildet, datentechnisch miteinander verbunden sind, so dass die Parameter beider Teile des KNN gemeinsam trainiert werden können.
  • Die Reduzierung des Detaillierungsgrades kann speziell bei der Überwachung des Umfelds von Fahrzeugen genutzt werden, um innerhalb des Fahrzeugs Übertragungsbandbreite einzusparen. Der Detaillierungsgrad kann bereits in der Nähe des jeweiligen Sensors durch die Vorverarbeitungseinheit reduziert werden. Die detailreduzierten Bilddaten haben dann ein deutlich geringeres Volumen, und/oder sie lassen sich auf Grund ihres geringeren Informationsgehalts für die Übertragung innerhalb des Fahrzeugs zum Klassifikator auf ein deutlich geringeres Volumen komprimieren.
  • Daher ist in einer weiteren besonders vorteilhaften Ausgestaltung die Vorverarbeitungseinheit über eine dedizierte Breitbandverbindung mit mindestens einer von einem Fahrzeug getragenen Bildquelle verbunden. Die Vorverarbeitungseinheit ist mit dem Klassifikator über ein Bussystem des Fahrzeugs, das von weiteren Bordsystemen des Fahrzeugs mitbenutzt wird, verbunden.
  • Die meisten heutigen Fahrzeuge sind mit einem CAN-Bus oder anderen Bussystem ausgestattet, an das viele weitere Fahrzeugsysteme angeschlossen sind. Ein solches Bussystem ermöglicht es allen angeschlossenen Teilnehmern, miteinander zu kommunizieren. Gegenüber der früheren Bäume dedizierter Kabel zwischen je zwei Teilnehmern, die miteinander kommunizieren, spart dies erheblichen Verkabelungsaufwand ein. Der Preis hierfür ist jedoch, dass sich die angeschlossenen Teilnehmer die Bandbreite des Bussystems teilen müssen. In der Regel kann immer nur ein Teilnehmer zur Zeit senden. Wenn nun das ganze Fahrzeugumfeld mit einer Mehrzahl von Sensoren (etwa hochauflösenden Kameras) überwacht wird, werden große Datenmengen erzeugt, die sich möglicherweise gar nicht mehr zur Gänze über das Bussystem übertragen lassen. Selbst ein „Highspeed“-CAN-Bus hat nur maximal 1 Mbit/s Bandbreite, was schon für einen Full-HD-Videodatenstrom zu wenig ist. Indem nun aber der Detaillierungsgrad vor der Übertragung über das Bussystem deutlich reduziert wird und die Daten somit verlustbehaftet komprimiert werden, reicht die Bandbreite auch für den Transport der von mehreren Kameras gewonnenen und in gleicher Weise verdichteten Daten aus. Zu diesem Zweck kann die Vorverarbeitungseinheit insbesondere beispielsweise Teil eines Sensormoduls für die Aufnahme von Bilddaten aus einem Fahrzeugumfelds sein.
  • In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Bilddaten in eine Repräsentation in einem Arbeitsraum zu transformieren und den Detaillierungsgrad dieser Repräsentation zu reduzieren. Wenn sich in dem verwendeten Arbeitsraum die für die jeweilige Anwendung wichtigen Details besonders gut von den weniger wichtigen Details unterscheiden lassen, können auf diese Weise mehr wichtige Details erhalten und mehr unwichtige Details weggelassen werden. Die Repräsentation kann dann beispielsweise wieder in den Raum zurücktransformiert werden, dem auch die ursprünglichen Bilddaten angehören. Dies hat den Vorteil, dass der Klassifikator selbst nicht geändert werden muss, sondern weiterhin so arbeiten kann, als würden ihm die ursprünglichen Bilddaten zugeführt. Die Repräsentation kann aber auch beispielsweise direkt durch den Klassifikator weiterverarbeitet werden. Dies ist insbesondere dann vorteilhaft, wenn die Rücktransformation in den Raum der ursprünglichen Bilddaten schwieriger oder gar nicht eindeutig möglich ist.
  • In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Repräsentation in dem Arbeitsraum als eine durch einen Satz von Koeffizienten charakterisierte Linearkombination von Basisfunktionen des Arbeitsraums zu ermitteln. Die Vorverarbeitungseinheit ist weiterhin dazu ausgebildet, anhand der Bilddaten mindestens eine Vorgabe dahingehend, welche Koeffizienten betragsmäßig zu reduzieren oder zu eliminieren sind, aus dem trainierten Zusammenhang abzurufen und Koeffizienten der Repräsentation entsprechend dieser Vorgabe zu reduzieren oder zu eliminieren.
  • In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, die Repräsentation in dem Arbeitsraum als durch einen Satz von Wavelet-Koeffizienten charakterisierte Linearkombination von Wavelets zu ermitteln. Wavelets sind Funktionen, die nur in einem begrenzten Gebiet ihres (räumlichen) Definitionsbereichs von Null verschieden sind. Ein Wavelet („Mutter-Wavelet“) kann insbesondere beispielsweise ein ganzes System von Funktionen auf unterschiedlichen Größenskalen erzeugen, das dann für eine Multiskalenanalyse der Bilddaten verwendet werden kann. Wavelets zeichnen sich weiterhin dadurch aus, dass Nutzinhalte von Bildern typischerweise nur in wenigen betragsmäßig großen Wavelet-Koeffizienten konzentriert sind, während etwa weißes Rauschen über viele betragsmäßig kleine Wavelet-Koeffizienten verschmiert ist.
  • Um den Detaillierungsgrad zu reduzieren, können insbesondere beispielsweise Wavelet-Koeffizienten, die sich auf größere räumliche Bildbereiche beziehen, gegenüber Wavelet-Koeffizienten, die sich auf feinere Details beziehen, bevorzugt werden. Die solchermaßen bevorzugten Bildanteile sind besonders robust gegen Rauschen im ursprünglichen Bild und auch gegen Verfälschungen des ursprünglichen Bildes mit einem „adversarial example“. Das heißt, das Rauschen, bzw. die Manipulation mit dem „adversarial example“, wird durch die Vorverarbeitungseinheit einnivelliert und erreicht den Klassifikator nicht mehr.
  • An Stelle der Wavelet-Transformation können beispielsweise auch die diskrete Cosinus-Transformation oder die Fourier-Transformation genutzt werden.
  • In einer besonders vorteilhaften Ausgestaltung ist die Vorverarbeitungseinheit dazu ausgebildet, einen zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, als Vorgabe abzurufen. Der gelernte Zusammenhang kann also beispielsweise vorschlagen, bestimmte Bilder in allen Details zu berücksichtigen, von anderen Bildern jedoch 50 % und mehr der Details zu streichen.
  • Beispielsweise kann die Vorverarbeitungseinheit lernen, dass ein gestochen scharfes Bild in allen Details berücksichtigt werden kann, während ein verwackeltes oder aus anderen Gründen unscharfes Bild in seinem Detaillierungsgrad deutlich zu reduzieren ist. Dadurch kann verhindert werden, dass beispielsweise Rauschen in eine solchen unscharfen Bild das Vorhandensein wichtiger Details suggeriert, die in Wahrheit gar nicht da sind.
  • Der zahlenmäßige Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, kann insbesondere beispielsweise unter Heranziehung der Entropie der Bilddaten ermittelt werden.
  • Es kann auch beispielsweise eine feste Quote für Koeffizienten, die nicht verändert werden sollen, festgelegt werden, die dann auch wieder beispielsweise abhängig von der Größenskala des Wavelets festgelegt werden kann. So kann beispielsweise die Anzahl der Koeffizienten, die nicht verändert werden sollen, für die größte Größenskala (Ordnung 0) auf einen Hyperparameter a und dann für kleinere Größenskalen (Ordnung i=1, 2, 3, ..) auf ai festgelegt werden, wobei auf die nächstgrößere ganze Zahl aufzurunden ist.
  • Alternativ kann die Vorverarbeitungseinheit auch dazu ausgebildet sein, anhand der Bilddaten aus dem trainierten Zusammenhang eine Dimensionalität für einen latenten Raum eines Autoencoders als Arbeitsraum abzurufen und die Bilddaten mit dem Autoencoder in diesen Arbeitsraum zu transformieren. Ein Autoencoder ist in diesem Zusammenhang ein trainierbares Modul, das die Bilddaten in eine Repräsentation mit einer deutlich reduzierten Dimensionalität umwandelt. Diese Repräsentation kann dann von einem zugehörigen Decoder wieder in Bilddaten zurückübersetzt werden, die den ursprünglichen Bilddaten sehr ähnlich sind. Typischerweise werden der Encoder und der Decoder gemeinsam auf das Ziel trainiert, dass die zurückübersetzten Bilddaten den ursprünglichen Bilddaten möglichst ähnlich sind.
  • In dieser Ausgestaltung ist die Dimensionalität für den latenten Raum die Stellschraube hinsichtlich des Detaillierungsgrades der Bilddaten. Die Repräsentation im latenten Raum als Arbeitsraum kann vom Klassifikator unmittelbar weiterverarbeitet werden. Es können aber auch die zurückübersetzten Bilddaten vom Klassifikator weiterverarbeitet werden.
  • Die von der Vorrichtung gelieferte Zuordnung der Bilddaten zu einer oder mehreren Klassen kann beispielsweise in einem Fahrzeug von einem Fahrassistenzsystem und/oder einem System für das zumindest teilweise automatisierte Fahren in beliebiger Weise ausgewertet und zur Grundlage für die Planung von Fahrmanövern gemacht werden. Insbesondere kann die Vorrichtung als Datenquelle für beliebige derartige Systeme genutzt werden.
  • Die Erfindung bezieht sich auch auf ein Verfahren zum Trainieren speziell derjenigen Ausgestaltung der Vorrichtung, in der die Vorverarbeitungseinheit die Bilddaten in eine Repräsentation in einem Arbeitsraum (etwa Raum der Wavelet-Koeffizienten oder latenter Raum) transformiert.
  • Im Rahmen dieses Verfahrens werden Lern-Bilddaten und zugehörige Lern-Zuordnungen, auf die die Vorrichtung die Lern-Bilddaten nominell abbilden soll, bereitgestellt. Weiterhin wird eine Vorgabe für die Reduzierung des Detaillierungsgrades, die während des Trainings im Mittel angestrebt wird, als Hyperparameter festgelegt. Parameter, die das Verhalten der trainierbaren Vorverarbeitungseinheit der Vorrichtung charakterisieren, werden nun auf die Ziele optimiert, dass
    • • die Vorrichtung die Lern-Bilddaten auf die Lern-Zuordnungen abbildet und
    • • zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit an den Lern-Bilddaten vornimmt, im Mittel der Vorgabe entspricht.
  • Wie zuvor bereits erwähnt, wird durch den Hyperparameter festgelegt, welcher Anteil der ursprünglich aufgenommenen Details dem Klassifikator im Mittel zugeführt wird. Beim Training der Parameter der Vorverarbeitungseinheit wird dann gelernt, diese vorgegebene „Ration“ an Information so auf die verschiedenen Lern-Bilder zu verteilen, dass der Klassifikator letztendlich eine optimale Genauigkeit liefert. Sei beispielsweise die Vorgabe, dass im Mittel der Detaillierungsgrad um 50 % zu reduzieren ist. Dann können am Ende des Trainings beispielsweise von einer Million Bilder einige wenige Bilder als Schlüssel-Bilder ausgewählt sein, die in allen Details berücksichtigt werden, während von den meisten anderen Bildern 95 % der Details unberücksichtigt bleiben.
  • Es ist zu erwarten, dass sich in der konkreten Anwendung für den Hyperparameter ein Optimum einstellt, das beispielsweise abhängig sein kann von der Architektur und Größe des KNN, von Art, Label-Qualität und Variabilität der Trainingsdaten, von der Lernrate sowie von der Pixelanzahl der verarbeiteten Bilder. Dieses Optimum kann über ein beliebiges Parameteroptimierungsverfahren erhalten werden.
  • In einer besonders vorteilhaften Ausgestaltung werden zusätzlich Parameter, die das Verhalten des Klassifikators der Vorrichtung charakterisieren, auf das Ziel optimiert, dass die Vorrichtung die Lern-Bilddaten auf die Lern-Zuordnungen abbildet. Wie zuvor erläutert, können dann die Vorverarbeitungseinrichtung einerseits und der Klassifikator andererseits „Hand in Hand“ trainiert werden, beispielsweise gleichzeitig, alternierend oder sonstwie im Wechsel. Der Klassifikator kann als beispielsweise im Rahmen seines Trainingsfortschritts lernen, welche Details in Bildern für die Entscheidung zwischen Klassen besonders relevant sind, und die Vorverarbeitungseinheit kann lernen, diese Details in den Bilddaten herauszuarbeiten.
  • In einer weiteren besonders vorteilhaften Ausgestaltung wird die Optimierung der Parameter, die das Verhalten des Klassifikators charakterisieren, zusätzlich auch auf das Ziel gerichtet, dass der Detaillierungsgrad der vom Klassifikator genutzten Bilddaten möglichst gering ist. Dadurch wird die Tendenz des Klassifikators verstärkt, Entscheidungen über Klassenzuordnungen eher von langsam veränderlichen Anteilen des Bildes abhängig zu machen. Dies erhöht die Robustheit gegen Rauschen und gegen „adversarial examples“ zusätzlich.
  • Sowohl die Vorrichtung als auch Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer zu der zuvor beschrieben Vorrichtung aufwerten, und/oder dazu veranlassen, das zuvor beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
  • Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
  • Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
  • Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
  • Ausführungsbeispiele
  • Es zeigt:
    • 1 Ausführungsbeispiel der Vorrichtung 1;
    • 2 Weiteres Ausführungsbeispiel der Vorrichtung 1 in einem Fahrzeug 6;
    • 3 Schematisches Beispiel für die Detailreduzierung am Beispiel eines Fußgängers 4;
    • 4 Ausführungsbeispiel des Verfahrens 100.
  • 1 zeigt ein Ausführungsbeispiel der Vorrichtung 1 für die Klassifikation von Bilddaten 2. Die Vorrichtung 1 umfasst eine trainierbare Vorverarbeitungseinheit 11 und einen Klassifikator 12.
  • Die Vorverarbeitungseinheit 11 nimmt Bilddaten 2 aus einer beliebigen Quelle entgegen und ermittelt in einem Block 111 anhand dieser Bilddaten 2 mindestens eine Vorgabe 3 dahingehend, inwieweit der Detaillierungsgrad der Bilddaten 2 zu reduzieren ist. In Block 112 wird der Detaillierungsgrad der Bilddaten 2 entsprechend dieser Vorgabe 3 reduziert, so dass detailreduzierte Bilddaten 4 entstehen. Diese detailreduzierten Bilddaten 4 werden auf eine Zuordnung 5 zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abgebildet.
  • 2 zeigt ein weiteres Ausführungsbeispiel der Vorrichtung 1, die in einem Fahrzeug 6 verbaut ist. Das Fahrzeug 6 verfügt über vier Kameras 61a-61d, die Bereiche 60a-60d des Umfelds des Fahrzeugs 6 überwachen. Jede dieser Kameras 61a-61d liefert Bilddaten 2 über eine dedizierte Breitbandverbindung 62a-62d an eine jeweils zugeordneten Vorverarbeitungseinheit 11a-11d. Alle Vorverarbeitungseinheiten 11a-11d sind mit einem zentralen Bussystem 63 des Fahrzeugs 6 verbunden, das auch von weiteren Bordsystemen 64-66 des Fahrzeugs 6 mitbenutzt wird. Die Vorverarbeitungseinheiten 11a-11d liefern stark komprimierte detailreduzierte Bilddaten 4 an den trainierbaren Klassifikator 12. Auf diese Weise kann der Klassifikator 12 die wichtigsten Details der Bilddaten 2 verarbeiten, ohne dass der volle Datenstrom der Bilddaten 2 über das hierfür nicht ausgelegte Bussystem 63 des Fahrzeugs 6 übertragen werden muss. Die Rückwirkung vom Klassifikator auf Aktoren des Fahrzeugs 6 ist in 2 der Übersichtlichkeit halber nicht eingezeichnet.
  • 3 zeigt ein Beispiel für die Detailreduktion am Beispiel eines Fußgängers 7. 3a ist eine Schemazeichnung von Bilddaten 2, die eine Kamera liefert. Der Fußgänger 7 hat ein Gesicht 71 mit ausgeprägten Gesichtsmerkmalen. Er trägt weiterhin ein T-Shirt 72 mit einer Aufschrift 73 und Schulterpolstern 74.
  • All diese Details sind für die wichtige Erkennung, dass es sich um einen Fußgänger handelt, nicht relevant. Gewisse Details könnten einen Klassifikator 12 sogar ablenken. So könnten beispielsweise bestimmte Gesichtszüge im Gesicht 71 oder ein zerfledderter Zustand des T-Shirts 72 den Klassifikator 12 zur Falschklassifikation des Fußgängers 7 als Vogelscheuche veranlassen. Ebenso könnten die Schulterpolster 74 den Klassifikator 12 zur Falschklassifikation des Fußgängers 7 als Schaufensterpuppe veranlassen. Beides wäre nachteilig für den Fußgänger 7, denn ein System für das zumindest teilweise automatisierte Fahren würde davon ausgehen, dass bei einer Kollision mit einer Vogelscheuche oder einer Schaufensterpuppe nur geringer Sachschaden entsteht, und im Zweifel dieser Kollision den Vorzug vor einer Kollision mit einem anderen Fahrzeug geben. Ähnliches könnte passieren, wenn die Falschklassifikation durch ein manipulatives „Adversarial“-Muster 75 in den Bilddaten 2, bewirkt etwa durch einen halbdurchlässigen Aufkleber auf der Kameralinse, bewusst herbeigeführt wird.
  • 3b zeigt die detailreduzierten Bilddaten 4. Hier ist nur noch abstrakt zu erkennen, dass es sich um einen Fußgänger 7 handelt. Alle weiteren Details sind weggelassen, so dass für ihre Verarbeitung keine weitere Bandbreite und Rechenkapazität mehr erforderlich sind. Auch das „Adversarial“-Muster 75 ist zu einem homogenen Fleck geglättet und somit unschädlich gemacht worden.
  • 4 zeigt ein Ausführungsbeispiel des Verfahrens 100 zum Trainieren der Vorrichtung 1. In Schritt 110 werden Lern-Bilddaten 2a und zugehörige Lern-Zuordnungen 5a bereitgestellt. In Schritt 120 wird eine Vorgabe 3a für die Reduzierung des Detaillierungsgrades der Lern-Bilddaten 2a, die im Mittel angestrebt wird, festgelegt. In Schritt 130 werden Parameter 11*, die das Verhalten der trainierbaren Vorverarbeitungseinheit 11, 11a-11d der Vorrichtung 1 charakterisieren, auf die Ziele optimiert, dass
    • • die Vorrichtung 1 die Lern-Bilddaten 2a auf die Lern-Zuordnungen 5a abbildet und
    • • zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit 11, 11a-11d an den Lern-Bilddaten 2a vornimmt, im Mittel der Vorgabe 3a entspricht.
  • Zusätzlich werden in diesem Ausführungsbeispiel in Schritt 140 auch Parameter 12*, die das Verhalten des Klassifikators 12 der Vorrichtung 1 charakterisieren, auf das Ziel optimiert, dass die Vorrichtung 1 die Lern-Bilddaten 2a auf die Lern-Zuordnungen 5a abbildet. Dieses Training ist mit dem Training 130 der Parameter 11* der Vorverarbeitungseinheit 11, 11a-11d verzahnt.
  • Gemäß Block 141 wird auch die Optimierung 140 der Parameter 12* des Klassifikators 12 zusätzlich auch auf das Ziel gerichtet, dass der Detaillierungsgrad der vom Klassifikator 12 genutzten Bilddaten 2 möglichst gering ist.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102017211331 A1 [0003]

Claims (15)

  1. Vorrichtung (1) für die Klassifikation von Bilddaten (2), umfassend • eine trainierbare Vorverarbeitungseinheit (11, 11a-11d), welche dazu ausgebildet ist, anhand der Bilddaten (2) mindestens eine Vorgabe (3) dahingehend, inwieweit der Detaillierungsgrad der Bilddaten (2) zu reduzieren ist, aus einem trainierten Zusammenhang abzurufen (111) und den Detaillierungsgrad der Bilddaten (2) entsprechend dieser Vorgabe (3) zu reduzieren (112); sowie • einen trainierbaren Klassifikator (12), der dazu ausgebildet ist, die detailreduzierten Bilddaten (4) auf eine Zuordnung (5) zu einer oder mehreren Klassen einer vorgegebenen Klassifikation abzubilden.
  2. Vorrichtung (1) nach Anspruch 1, wobei die Vorverarbeitungseinheit (11, 11a-11d) und der Klassifikator (12) als gemeinsames künstliches neuronales Netzwerk, KNN, ausgebildet sind.
  3. Vorrichtung (1) nach einem der Ansprüche 1 bis 2, wobei • die Vorverarbeitungseinheit (11, 11a-11d) über eine dedizierte Breitbandverbindung (62a-62d) mit mindestens einer von einem Fahrzeug (6) getragenen Bildquelle (61a-61d) verbunden ist und • die Vorverarbeitungseinheit (11, 11a-11d) mit dem Klassifikator (12) über ein Bussystem (63) des Fahrzeugs (6), das von weiteren Bordsystemen (64-66) des Fahrzeugs (6) mitbenutzt wird, verbunden ist.
  4. Vorrichtung (1) nach einem der Ansprüche 1 bis 3, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • die Bilddaten (2) in eine Repräsentation in einem Arbeitsraum zu transformieren und • den Detaillierungsgrad dieser Repräsentation zu reduzieren.
  5. Vorrichtung (1) nach Anspruch 4, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • die Repräsentation im dem Arbeitsraum als eine durch einen Satz von Koeffizienten charakterisierte Linearkombination von Basisfunktionen des Arbeitsraums zu ermitteln, • anhand der Bilddaten (2) mindestens eine Vorgabe dahingehend, welche Koeffizienten betragsmäßig zu reduzieren oder zu eliminieren sind, aus dem trainierten Zusammenhang abzurufen und • Koeffizienten der Repräsentation entsprechend dieser Vorgabe zu reduzieren oder zu eliminieren.
  6. Vorrichtung (1) nach Anspruch 5, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, die Repräsentation in dem Arbeitsraum als durch einen Satz von Wavelet-Koeffizienten charakterisierte Linearkombination von Wavelets zu ermitteln.
  7. Vorrichtung (1) nach einem der Ansprüche 5 bis 6, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, einen zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, als Vorgabe (3) abzurufen.
  8. Vorrichtung (1) nach Anspruch 7, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, den zahlenmäßigen Anteil der Koeffizienten, die betragsmäßig zu reduzieren oder zu eliminieren sind, unter Heranziehung der Entropie der Bilddaten (2) zu ermitteln.
  9. Vorrichtung nach Anspruch 4, wobei die Vorverarbeitungseinheit (11, 11a-11d) dazu ausgebildet ist, • anhand der Bilddaten (2) aus dem trainierten Zusammenhang eine Dimensionalität für einen latenten Raum eines Autoencoders als Arbeitsraum abzurufen und • die Bilddaten (2) mit dem Autoencoder in diesen Arbeitsraum zu transformieren.
  10. Verfahren (100) zum Trainieren einer Vorrichtung (1) nach einem der Ansprüche 4 bis 9 mit den Schritten: • Lern-Bilddaten (2a) und zugehörige Lern-Zuordnungen (5a), auf die die Vorrichtung (1) die Lern-Bilddaten (2a) nominell abbilden soll, werden bereitgestellt (110); • eine Vorgabe (3a) für die Reduzierung des Detaillierungsgrades, die im Mittel angestrebt wird, wird festgelegt (120); und • Parameter (11*), die das Verhalten der trainierbaren Vorverarbeitungseinheit (11, 11a-11d) der Vorrichtung (1) charakterisieren, werden auf die Ziele optimiert (130), dass die Vorrichtung (1) die Lern-Bilddaten (2a) auf die Lern-Zuordnungen (5a) abbildet und zugleich die Reduzierung des Detaillierungsgrades, die die Vorverarbeitungseinheit (11, 11a-11d) an den Lern-Bilddaten (2a) vornimmt, im Mittel der Vorgabe (3a) entspricht.
  11. Verfahren (100) nach Anspruch 10, wobei zusätzlich Parameter (12*), die das Verhalten des Klassifikators (12) der Vorrichtung (1) charakterisieren, auf das Ziel optimiert werden (140), dass die Vorrichtung (1) die Lern-Bilddaten (2a) auf die Lern-Zuordnungen (5a) abbildet.
  12. Verfahren (100) nach Anspruch 11, wobei die Optimierung (140) der Parameter (12*), die das Verhalten des Klassifikators (12) charakterisieren, zusätzlich auch auf das Ziel gerichtet wird (141), dass der Detaillierungsgrad der vom Klassifikator (12) genutzten Bilddaten (2) möglichst gering ist.
  13. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer zu einer Vorrichtung (1) nach einem der Ansprüche 1 bis 9 aufwerten, und/oder dazu veranlassen, ein Verfahren (100) nach einem der Ansprüche 10 bis 12 auszuführen.
  14. Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
  15. Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.
DE102020206994.8A 2020-06-04 2020-06-04 Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades Pending DE102020206994A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102020206994.8A DE102020206994A1 (de) 2020-06-04 2020-06-04 Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades
CN202180039864.2A CN115605921A (zh) 2020-06-04 2021-06-02 带有粒化程度适配的对图像数据的分类
PCT/EP2021/064833 WO2021245156A1 (de) 2020-06-04 2021-06-02 Klassifikation von bilddaten mit anpassung des detaillierungsgrades
US18/000,568 US20230230335A1 (en) 2020-06-04 2021-06-02 Classification of Image Data with Adjustment of the Degree of Granulation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020206994.8A DE102020206994A1 (de) 2020-06-04 2020-06-04 Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades

Publications (1)

Publication Number Publication Date
DE102020206994A1 true DE102020206994A1 (de) 2021-12-09

Family

ID=76325541

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020206994.8A Pending DE102020206994A1 (de) 2020-06-04 2020-06-04 Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades

Country Status (4)

Country Link
US (1) US20230230335A1 (de)
CN (1) CN115605921A (de)
DE (1) DE102020206994A1 (de)
WO (1) WO2021245156A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017211331A1 (de) 2017-07-04 2019-01-10 Robert Bosch Gmbh Bildauswertung mit zielgerichteter Vorverarbeitung

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593632B2 (en) * 2016-12-15 2023-02-28 WaveOne Inc. Deep learning based on image encoding and decoding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017211331A1 (de) 2017-07-04 2019-01-10 Robert Bosch Gmbh Bildauswertung mit zielgerichteter Vorverarbeitung

Also Published As

Publication number Publication date
CN115605921A (zh) 2023-01-13
WO2021245156A1 (de) 2021-12-09
US20230230335A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP3629241A1 (de) Vorrichtung und verfahren zur automatischen bildverbesserung bei fahrzeugen
DE102017127592A1 (de) Verfahren zum Klassifizieren von Bildszenen in einem Fahrunterstützungssystem
WO2019001649A1 (de) Wissenstransfer zwischen verschiedenen deep-learning architekturen
DE102015201586A1 (de) Verfahren und Vorrichtung zur Wiedererkennung eines Anhängers
DE102017215283A1 (de) Verfahren zum Anonymisieren eines Bilds für ein Kamerasystem eines Kraftfahrzeugs, Bildverarbeitungseinrichtung, Kamerasystem sowie Kraftfahrzeug
DE102020209538A1 (de) Vorrichtung und Verfahren zum Ermitteln einer physikalischen Eigenschaft eines physikalischen Objekts
DE102020208008A1 (de) Bildklassifikation und zugehöriges Training für sicherheitsrelevante Klassifikationsaufgaben
AT521647A1 (de) Verfahren und System zur Datenaufbereitung, zum Trainieren eines künstlichen neuronalen Netzes und zum Analysieren von Sensordaten
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE102018121866A1 (de) Verfahren zur Tiefenabschätzung von zweidimensionalen Sensordaten
DE102019219734A1 (de) Auswertungssystem für Messdaten aus mehreren Domänen
DE102020206994A1 (de) Klassifikation von Bilddaten mit Anpassung des Detaillierungsgrades
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE102018132627A1 (de) Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
WO2022043203A1 (de) Training eines generators zur erzeugung realistischer bilder mit einem semantisch segmentierenden diskriminator
DE102017218773A1 (de) Verfahren und Vorrichtung zum Ansteuern eines Aktors
DE102020207004A1 (de) Regularisiertes Training neuronaler Netzwerke
WO2020119996A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE102019213896A1 (de) Inkrementelles neuronales Netzwerk mit Encoder-Decoder-Struktur
DE102019103192A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein digitales, lernfähiges Kamerasystem
WO2020064521A1 (de) Konzept zum aufbereiten von infrarotbildern
DE102018114956A1 (de) Verfahren zum Bestimmen eines aktuellen Nässezustands einer Fahrbahn mittels einesNässezustandsmodells, elektronische Recheneinrichtung sowie Fahrerassistenzsystem

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000