DE102020204840A1 - Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor - Google Patents

Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor Download PDF

Info

Publication number
DE102020204840A1
DE102020204840A1 DE102020204840.1A DE102020204840A DE102020204840A1 DE 102020204840 A1 DE102020204840 A1 DE 102020204840A1 DE 102020204840 A DE102020204840 A DE 102020204840A DE 102020204840 A1 DE102020204840 A1 DE 102020204840A1
Authority
DE
Germany
Prior art keywords
channel
image data
image
pixels
partitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020204840.1A
Other languages
English (en)
Inventor
Mario Rometsch
Tobias Bund
Robert Thiel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Autonomous Mobility Germany GmbH
Original Assignee
Conti Temic Microelectronic GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conti Temic Microelectronic GmbH filed Critical Conti Temic Microelectronic GmbH
Priority to DE102020204840.1A priority Critical patent/DE102020204840A1/de
Publication of DE102020204840A1 publication Critical patent/DE102020204840A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Bildauswertungsvorrichtung (10) zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) durch einen Bilddatenprozessor (14) mit einem künstlichen Neuronalen Netzwerk (16), beispielsweise in einem kamerabasierten ADAS/AD-System für ein Fahrzeug.Die Bilddaten sind in mehrere Kanäle kodiert bzw. aufgeteilt. Ein erster Kanal (Y) weist eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) auf. Die Pixel des ersten Kanals (Y) können durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt. Hierbei weist jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) auf. Das Verfahren umfasst die Schritte:a) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung (1)b) Partitionierung (Pa) des ersten Kanals (Y) des Eingangsbilds in m*n Partitionen (Y_1, Y_2, ..., Y_m*n), wobei innerhalb jeder Partition die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, undc) Ausgeben der m*n Partitionen des ersten Kanals (Y) und der Bilddaten des zweiten Kanals (U;V) an den Bilddatenprozessor (14) mit dem künstlichen neuronalen Netzwerk (16), damit das künstliche Neuronale Netzwerk (16) die Bilddaten auswerten kann.Das Verfahren ermöglicht eine effiziente Prozessierung der vollständigen Bilddaten mit wenigen Rechenzyklen.

Description

  • Die Erfindung betrifft ein Verfahren und eine Bildauswertungsvorrichtung zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor mit einem künstlichen Neuronalen Netzwerk, beispielsweise in einem kamerabasierten ADAS/AD-System für ein Fahrzeug.
  • CNN-basierte Technologien werden immer häufiger in kamerabasierten Fahrerassistenzsystemen verwendet, um die Straßenteilnehmer und die Szene besser zu erkennen, klassifizieren und zumindest teilweise verstehen zu können. Die neuronalen Netze haben dabei eindeutige Vorteile gegenüber klassischen Methoden, die eher handgefertigte Merkmale (Histogram of oriented Gradients, Local Binary Patterns, Gabor Filter usw.) mit angelernten Klassifikatoren wie Support Vector Machines oder AdaBoost verwenden. Bei (mehrstufigen) CNNs (Convolutional neural networks) wird die Merkmalextraktion algorithmisch durch maschinelles (tiefes) Lernen erzielt und dadurch wird die Dimensionalität und Tiefe des Merkmalsraum deutlich erhöht, was letztendlich zu einer deutlich besseren Performance z.B. in Form einer erhöhten Erkennungsrate führt.
  • EP 3309707 A1 zeigt eine gradientenbasierte Objekterkennung eines Eingangsbilds. Anhand der Orientierung von Gradienten in einem Eingangsbild können positive und negative Merkmalskarten generiert werden. Durch maschinelles Lernen (machine learning) können positive und negative Merkmalskarten zu einer Objektkarte kombiniert werden.
  • J. Redmon et al. zeigen in YOLO9000: Better, Faster, Stronger, 2016, arXiv:1612.08242 [cs.CV] einen verbesserten YOLO (You only look once) - Algorithmus für ein Echtzeit-Objekterkennungssystem, das 9000 Objektkategorien aus vollständigen Einzelbildern erkennen kann.
  • Die Auflösung von Fahrzeugkameras steigt stetig an, was jedoch zu hohen Datenvolumina führt, die zunächst übertragen und schließlich ausgewertet werden müssen.
  • EP 3442235 A1 zeigt eine Komprimierung von Farbbilddaten mit einer 12bit-Auflösung der einzelnen Pixel. Die Farbbilddaten können beispielsweise in einem YUV Format vorliegen.
  • Eine Aufgabe besteht darin, ein optimiertes Verfahren zur Prozessierung von Bilddaten anzugeben.
  • Ein Gegenstand der Erfindung betrifft ein Verfahren zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung auf einem Bilddatenprozessor mit einem (vortrainierten) künstlichen neuronalen Netzwerk. Das neuronale Netzwerk kann insbesondere ein CNN (auf Deutsch etwa faltungsbasiertes neuronales Netzwerk) oder ein anderes tiefes künstliches neuronales Netzwerk sein. Die Bilddaten sind in mehrere Kanäle kodiert bzw. aufgeteilt. Ein erster Kanal weist eine höhere Auflösung in Form von größerer Breite und/oder Höhe an Pixeln als ein zweiter Kanal auf. Die Pixel des ersten Kanals können durch n*m Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt. Hierbei weist jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals auf. Das Verfahren umfasst die Schritte:
    1. a) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung
    2. b) Partitionierung des ersten Kanals des Eingangsbilds in m*n Partitionen, wobei innerhalb jeder Partition die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und
    3. c) Ausgeben der m*n Partitionen des ersten Kanals und der (typischerweise unveränderten) Bilddaten des zweiten Kanals an den Bilddatenprozessor mit dem künstlichen neuronalen Netzwerk, damit das künstliche neuronale Netzwerk die Bilddaten auswerten kann.
  • Neben dem ersten und zweiten Kanal kann es weitere Kanäle geben, deren Auflösung der des ersten oder des zweiten Kanals entspricht oder deren Breite (oder Höhe) zwischen Breite (oder Höhe) des ersten und Breite (oder Höhe) des zweiten Kanals liegt. Für derartige „Zwischengrößen“ kann das vorgeschlagene Vorgehen in äquivalenter Weise angewendet werden. Hierauf wird vorliegend nicht näher eingegangen.
  • Das Verfahren ermöglicht eine effiziente Prozessierung der vollständigen Bilddaten mit wenigen Rechenzyklen. Das Verfahren kann beispielsweise dazu dienen, um aus einem Eingangsbild einer Fahrzeugkamera ADAS/AD relevante Informationen zu detektieren bzw. näher zu bestimmen. Relevante Informationen sind z.B. Objekte und/oder Umgebungsinformationen für ein ADAS/AD-System bzw. ein ADAS/AD-Steuergerät. ADAS steht für fortschrittliche Systeme zum assistierten Fahren und AD steht für automatisiertes Fahren (Englisch: Advanced Driver Assistance Systems bzw. Automated Driving). ADAS/AD-relevante Objekte und/oder Umgebungsinformationen sind z.B. Gegenstände, Markierungen, Verkehrsschilder oder Verkehrsteilnehmer, die für ADAS/AD-Systeme wichtige Eingangsgrößen darstellen. Beispiele für Funktionen zur Detektion relevanter Informationen sind eine Fahrspurerkennung, eine Objekterkennung, eine Tiefenerkennung (3D-Schätzung der Bildbestandteile), semantische Erkennung, Verkehrszeichenerkennung oder dergleichen mehr.
  • Eine Ausführungsform sieht vor, dass die Partitionen definiert sind durch jeweils eine von den anderen Partitionen unterschiedliche Startadresse eines Pixels aus einer Pixeladresse (1,1) bis (m,n) des ersten Kanals des Eingangsbilds und einer einheitlichen Schrittgröße (einem Pixelintervall, Englisch: „stride“) auf dem ersten Kanal des Eingangsbilds, welches in vertikaler Richtung m und in horizontaler Richtung n Pixel beträgt.
  • Gemäß einer Ausführungsform umfasst der Bilddatenprozessor der Bildauswertungsvorrichtung einen Hardware-Beschleuniger für das künstliche neuronale Netzwerk, der ein Auslesen der Partitionen durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem ersten Kanal des Eingangsbilds vorsieht bzw. beschleunigt. Gemeint ist, dass es genügt, dem Hardware-Beschleuniger die Startadressen und die Schrittgröße vorzugeben und dieser dann den ersten Kanal des Eingangsbilds direkt in die Mehrzahl von Partitionen ausliest. Dieses direkte Auslesen in Form von Partitionen ist von Vorteil, da sonst die Partitionen erst durch Kopieren erzeugt werden müssten, was wiederum mehr Overhead in der Berechnung bedeutet und die Effizienz des Ansatzes senkt.
  • In einer Ausführungsform umfasst der Bilddatenprozessor einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk, der einen Stapel (Englisch: stack) von mehreren Bildkanaldaten-„Paketen“ (Partitionen eines Kanals mit höherer Auflösung oder vollständige Daten eines Kanals mit geringerer Auflösung) während eines Taktzyklus bzw. Rechenzyklus (Englisch: clock cycle) weiterverarbeiten kann. Die Partitionen und die Daten des (oder der) zweiten Bildkanals (oder Bildkanäle) werden als gestapelte Bildkanaldatenpakete am Hardware-Beschleuniger eingespeist. Abhängig von der Anzahl an Bildkanaldaten (Stapelgröße), die der Hardware-Beschleuniger pro Clock-Cycle weiterverarbeiten kann, können alle Pakete zusammen gestapelt werden (ein Stapel) oder auf eine möglichst geringe Anzahl mehrerer Stapel aufgeteilt werden.
  • Bei einer Ausführungsform ist es vorgesehen, dass der Hardware-Beschleuniger die Eingangsbilddaten direkt in Bildkanaldatenpakte ausliest bzw. abtastet und diese anschließend als Stapel für das künstliche neuronale Netzwerk weiterverarbeitet.
  • In einer Ausführungsform weisen die Eingangsbilddaten einen ersten Kanal einer n-fachen Breite der Breite mindestens eines zweiten Kanals und einer m-fachen Höhe der Höhe (mindestens) eines zweiten Kanals auf. Die Breite und/oder Höhe des ersten Kanals entspricht also einem ganzzahligen Vielfachen derjenigen des zweiten Kanals. Im einfachsten Fall ist der erste Kanal doppelt so hoch und/oder breit wie der zweite Kanal.
  • Eine Ausführungsform sieht vor, dass der erste Kanal Helligkeitsinformation und (mindestens) ein zweiter Kanal Farbinformationen zum Inhalt hat bzw. beinhaltet.
  • Nach einem Ausführungsbeispiel liegen die Bilddaten des Eingangsbilds in einem YUV-Format vor, wobei der erste Kanal der Y-Kanal (Luminanz) ist mit Helligkeitsinformationen in höherer Auflösung und zwei zweite Kanäle (der U- und der V-Kanal, Chrominanz) Farbinformationen zum Inhalt haben. U- und V-Kanal haben typischerweise dieselbe Auflösung.
  • Gemäß einer anderen Ausführungsform trägt bzw. beinhaltet der erste Kanal Helligkeitsinformationen und (mindestens) ein zweiter Kanal Tiefeninformationen. Tiefeninformationen meint hierbei Abstandsinformationen, die beispielsweise bei einer Stereokamera für Bildinhalte mittels Triangulation bestimmt werden können. Mit Abstand ist der Abstand der Bildaufnahmevorrichtung zu Objekten gemeint. Die Bildaufnahmevorrichtung kann in diesem Fall eine 3D-Kamera oder auch ein hochauflösender Lidar-Sensor oder Laserscanner sein, der eine Vielzahl von Pixeln aufweist und räumliche Entfernungen für einzelne Pixel oder eine Gruppe benachbarter Pixel misst.
  • In einer Ausführungsform ist m gleich n und m = 2^s (s ist eine natürliche Zahl). D.h. die Höhe und Breite des ersten Kanals entspricht einer ganzzahligen Zweierpotenz der Höhe und Breite des zweiten Kanals.
  • Ein weiterer Aspekt der Erfindung betrifft eine Bildauswertungsvorrichtung, die zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung konfiguriert ist. Die Bildauswertungsvorrichtung umfasst eine Eingangsschnittstelle, einen Bilddatenprozessor mit einem künstlichen neuronalen Netzwerk und eine Ausgabeschnittstelle. Die Eingangsschnittstelle ist dazu konfiguriert, Bilddaten der Bildaufnahmevorrichtung zu empfangen. Die Bilddaten sind in mehrere Kanäle kodiert, wobei ein erster Kanal eine höhere Auflösung in Form von größerer Breite und/oder Höhe an Pixeln als ein zweiter Kanal aufweist. Hierbei werden die Pixel des ersten Kanals durch n*m Teilbilder vollständig abgedeckt, wobei m und n natürliche Zahlen sind, für die m+n größer oder gleich 3 gilt. Jedes Teilbild weist die Höhe und Breite der Pixel des zweiten Kanals auf.
  • Der Bilddatenprozessor ist dazu konfiguriert, die von der Eingangsschnittstelle empfangenen Bilddaten des ersten Kanals in m*n Partitionen zu partitionieren. Innerhalb jeder Partition wird die räumliche Beziehung der enthaltenen Pixel aufrechterhalten. Die Bilddaten der Partitionen des ersten Kanals und die (unveränderten) Bilddaten des zweiten Kanals werden an das künstliche neuronale Netzwerk übermittelt. Das künstliche neuronale Netzwerk ist dazu konfiguriert, die übermittelten Bilddaten auszuwerten. Dazu wurde das künstliche neuronale Netzwerk im Vorfeld mit einem Verfahren des maschinellen Lernens trainiert. Das vortrainierte künstliche neuronale Netzwerk kann somit die erhaltenen Bilddaten effizient, d.h. innerhalb weniger Taktzyklen bzw. mit einem geringen Rechenzeitaufwand auswerten. Die Bildauswertungsvorrichtung kann dazu verwendet werden, um ADAS/AD-relevante Informationen aus dem Eingangsbild einer Fahrzeugkamera zu detektieren bzw. zu bestimmen.
  • Im Folgenden werden Ausführungsbeispiele und Figuren beschrieben. Dabei zeigen:
    • 1 eine schematische Darstellung einer Vorrichtung, die zur Prozessierung von Bilddaten einer Kamera auf einer prozessierenden Einheit konfiguriert ist;
    • 2 ein Ablaufdiagramm eines Verfahrens zur Prozessierung von YUV kodierten Bilddaten;
    • 3 eine Darstellung einer ersten Partitionierung eines ersten Kanals eines Eingangsbilds in vier Partitionen Y_I, ..., Y_IV; und
    • 4 eine Darstellung einer zweiten Partitionierung eines ersten Kanals eines Eingangsbilds in vier Partitionen Y1, ..., Y4.
  • 1 zeigt schematisch eine Bildauswertungsvorrichtung 10, die mit einer Bildaufnahmevorrichtung 1 und einer ADAS/AD-Steuereinheit 20 elektrisch verbunden ist. Die Bildaufnahmevorrichtung 1 kann eine Frontkamera eines Fahrzeugs sein. Die Frontkamera dient als Umfeldsensor der Erfassung der Umgebung, die vor dem Fahrzeug liegt. Basierend auf den Signalen bzw. Bilddaten der Frontkamera können mehrere ADAS- oder AD-Funktionen durch die ADAS/AD-Steuereinheit 20 bereitgestellt werden, z.B. eine Fahrspurerkennung, Spurhalteunterstützung, Verkehrszeichenerkennung, Tempolimit-Assistenz, Verkehrsteilnehmererkennung, Kollisionswarnung, Notbremsassistenz, Abstandsfolgeregelung, Baustellenassistenz, ein Autobahnpilot, eine Cruising-Chauffeurfunktion und/oder ein Autopilot.
  • Die Bildaufnahmevorrichtung 1 umfasst eine Optik bzw. ein Objektiv und einen Bildaufnahmesensor, z.B. einen CMOS-Sensor.
  • Die vom Bildaufnahmesensor 1 erfassten Bilddaten bzw. -signale werden an eine Eingangsschnittstelle 12 der Bildauswertungsvorrichtung 10 übertragen. Die Bilddaten werden in der Bildauswertungsvorrichtung 10 von einem Bilddatenprozessor 14 prozessiert. Der Bilddatenprozessor 14 umfasst ein künstliches neuronales Netzwerk 16, beispielsweise ein CNN. Damit das künstliche neuronale Netzwerk 16 die Bilddaten beispielsweise auf einem Kamerasteuergerät in einem Fahrzeug in Echtzeit prozessieren kann, kann die Bildauswertungsvorrichtung 10 oder der Bilddatenprozessor 14 einen Hardwarebeschleuniger für das künstliche neuronale Netzwerk 16 umfassen. Derartige Hardwarebausteine können das im Wesentlichen softwareimplementierte neuronale Netzwerk 16 dediziert beschleunigen, so dass ein Echtzeitbetrieb des neuronalen Netzwerks 16 möglich ist. Die Bildauswertungsvorrichtung 10 kann einen Bildsignalvorverabeitungsprozessor (ISP, Image Signaling Processor) umfassen. Aufgabe des Bildsignalvorverarbeitungsprozessors ist die Aufbereitung (Preprocessing) von Rohsignalen der Bildaufnahmevorrichtung 1, z.B. in Form von De-mosaicking, Tone Mapping und/oder Entrauschen.
  • Der Bilddatenprozessor 14 kann die Bilddaten in einem „gestapelten“ Format verarbeiten, ist also in der Lage einen Stapel (Stack) von mehreren Eingangskanälen innerhalb eines Rechenzyklus (clock cycle) einzulesen und zu verarbeiten. In einem konkreten Beispiel ist es einem Bilddatenprozessor 14 möglich, vier Bildkanäle einer Auflösung von 576 x 320 Pixeln einzulesen.
  • Eine Herausforderung stellen Bilddaten dar, die in einem mehrkanaligen Format, beispielsweise einem YUV-Format mit unterschiedlichen Auflösungen kodiert vorliegen. Diese können nicht ohne Weiteres in Echtzeit verarbeitet werden oder die Verarbeitung ist ineffizient und benötigt enorm viele Ressourcen oder es wird bei der Verarbeitung Auflösung verschenkt. Falls die Bilddaten von der Bildaufnahmevorrichtung 1 in einem YUV Format bereitgestellt werden, in dem der Luminanzkkanal Y (als erster Kanal) eine Auflösung von 1156 x 640 Pixeln und die beiden Chrominanzkanäle U und V (als zweiter und dritter Kanal) jeweils eine Auflösung von 576 x 320 haben, stellt sich die Frage, wie diese Daten möglichst effizient vom Bilddatenprozessor 14 verarbeitet werden können. Ein Ansatz ist das geschickte Auslesen der YUV-Eingangsdaten. Der höher aufgelöste Y-Kanal kann hierbei in einer Weise „abgetastet“ werden, z.B. durch die Vorgabe von unterschiedlichen Startadressen und Schrittgrößen, dass bereits beim Auslesen der Eingangsdaten geeignete Partitionen Y_1, Y_2, ..., Y_m*n implizit erstellt werden. Verschiedene Varianten hierzu werden nachfolgend näher erläutert, insbesondere im Zusammenhang mit der Beschreibung der 3 und 4. Das Auslesen bzw. Abtasten findet typischerweise im (Haupt-) Bilddatenprozessor 14 statt. Vorteilhaft kann der Bilddatenprozessor 14 einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk 16 umfassen, der ein Auslesen der Partitionen Y_1, Y_2, ..., Y_m*n durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem Y-Kanal des Eingangsbilds vorsieht.
  • Durch eine Auswertung der Bilddaten können vom Bilddatenprozessor 14 mittels des künstlichen neuronalen Netzwerks 16 beispielsweise relevante Objekte detektiert und Ihre Lage in Bezug auf das Fahrzeug modelliert werden. Detektierte ADAS-relevante Objekte und Umgebungsinformationen können über eine Ausgabeschnittstelle 18 an eine ADAS/AD-Steuereinheit 20 ausgegeben werden. Die Bildauswertungsvorrichtung 10 kann eine eigenständige Recheneinheit, beispielsweise in Form einer zentralen Recheneinheit in einem Fahrzeug sein. Dadurch ist die Bildaufnahmevorrichtung 1 kompakt realisierbar und thermisch entkoppelbar von der Bildauswertungsvorrichtung 10. Die Bildauswertungsvorrichtung 10 kann auf einem SoC (System on Chip) implementiert sein.
  • Alternativ zu der in 1 dargestellten modularen Architektur, bei der die Bildauswertungsvorrichtung 10 ein eigenständiges Modul darstellt, kann die Bildauswertungsvorrichtung 10 in ein Gehäuse einer Bildaufnahmevorrichtung 1 integriert sein. Diese Kamera mit integrierter Bildauswertung kann als intelligente Kamera oder Smart-Kamera bezeichnet werden. Eine derartige „One-Box“ Lösung bietet den Vorteil, dass die Kamera insgesamt kompakt und mit kurzen Übertragungswegen innerhalb eines Gehäuses realisierbar ist.
  • 2 zeigt ein Ablaufdiagramm eines Verfahrens zur Prozessierung von YUV kodierten Bilddaten.
  • Der erste Schritt S1 betrifft das Empfangen von mehrkanaligen Bilddaten von einer Bildaufnahmevorrichtung 1 seitens einer Eingangsschnittstelle 12 einer Bildauswertungsvorrichtung 10.
  • Im zweiten Schritt S2 werden m und n festgelegt. Diese ergeben sich aus dem Verhältnis von Höhe und Breite der Pixel des ersten Kanals Y zu Höhe und Breite der Pixel des weiteren Kanals bzw. der weiteren Kanäle U,V. Als einfaches Beispiel sei m = 2 und n = 2 festgelegt.
  • Beim dritten Schritt S3 werden auf der Grundlage von m und n Startadressen y11 bis ymn und Schrittgrößen Sv = m und Sh = n für die zu bildenden Partitionen Y_1, Y_2, ..., Y_(m*n) definiert.
  • Im vierten Schritt S4 werden die Partitionen des Y-Kanals aus den Eingangsdaten des Y-Kanals anhand der definierten Startadressen y11 bis ymn und Schrittgrößen Sv und Sh ausgelesen (S4).
  • Im fünften Schritt S5 werden die Partitionen des Y-Kanals und die unveränderten Daten des U- und das V-Kanals in Stapel (Stacks) aufgeteilt. Dies kann als Ausgeben der Bilddaten der Partitionen Y_1, Y2, ..., Y_(m*n) des ersten Kanals und der Bilddaten des zweiten Kanals an den Bilddatenprozessor 14 bezeichnet werden. Bietet ein CNN Beschleuniger beispielsweise die Möglichkeit vier Stapel von der Dimension des U-Kanals während eines Rechenzyklus zu verarbeiten, können die vier Partitionen des Y-Kanals für den ersten Rechenzyklus gestapelt werden. Für den zweiten Rechenzyklus können die Daten des U- und des V-Kanals ebenfalls gestapelt werden.
  • Im sechsten Schritt S6 werden die Stapel durch den CNN Beschleuniger eingelesen.
  • Die Schritte S4 bis S6 können in einem Vorgang erfolgen: ein CNN-Beschleuniger tastet das Eingangsbild ab, bildet dabei die Partitionen des Y-Kanals, und stellt diese sowie die Daten der UV-Kanäle für das CNN bereit.
  • Anschließend werden die eingelesenen Stapel im siebten Schritt S7 durch das CNN (bzw. künstliche neuronale Netzwerk 16) des Bilddatenprozessors 14 prozessiert.
  • Der achte Schritt S8 besteht im Ausgeben des Ergebnisses der Prozessierung an ein ADAS/AD-Steuergerät 20 über eine Ausgabeschnittstelle 18 der Bildauswertungsvorrichtung 10.
  • Aktuell einsetzbare Beschleuniger für künstliche neuronale Netzwerke nutzen ihre volle Rechenleistung, indem ein Stapel von Kanälen auf einmal (während eines Taktzyklus) prozessiert wird. Als ein Beispiel prozessiert ein kommerziell erhältliches System vier Eingangskanäle innerhalb von einem Taktzyklus.
  • YUV enkodierte Eingangs-Kamerabilddaten können eine höhere Auflösung des Y-Kanals (Luminanz) gegenüber den beiden niedriger aufgelösten U- und V-Kanälen (Chrominanz) aufweisen, z.B. eine doppelte Breite und Höhe der Pixel.
  • Das macht es ziemlich ineffizient einen Y-Kanal mit höherer Auflösung gemeinsam mit den U- und V-Kanälen in separaten Schichten zu prozessieren. Auf der anderen Seite machen es die Unterschiede in den Auflösungen der Kanäle unmöglich, diese als einen Eingang zu stapeln.
  • Es existieren drei Ansätze, wie man solche Mehrkanal-Bilddaten mit unterschiedlicher Auflösung weiterverarbeiten kann:
    • a) man kann den Y-Kanal herunterskalieren
    • b) man kann die UV-Kanäle hochskalieren
    • c) man kann den Y-Kanal aufsplitten in mehrere, zum Beispiel in vier Bilder mit reduzierter Breite und Höhe.
  • Der Rechenaufwand in Zahlen von MAC Operationen (Multiply-accumulate, also der Multiplikation zweier Faktoren und anschließender Addition des Produkts zu einem Akkumulator, d.h. zu einer fortlaufenden Summe) für eine konventionelle Konvolutionsschicht (convolutional layer) bei einem kommerziell erhältlichen System (Renesas R-Car V3M/V3H) ist definiert als M A C 4 [ c h i n 1 ] w i d t h h e i g h t k 2 c h o u t
    Figure DE102020204840A1_0001
    wobei k die Kernelgröße angibt, die bei dem erhältlichen System bei k = 5 fixiert ist. ch_in ist die Anzahl der Eingangskanäle, width ist die Breite, height die Höhe des Bildes und ch_out die Anzahl der Filter bzw. Ausgangskanäle.
  • Für Variante a) beträgt der Rechenaufwand M A C a = 4 w i d t h u v h e i g h t u v k 2 c h o u t
    Figure DE102020204840A1_0002
    wobei widthuv und heightuv die Breite und Höhe des U-Kanals sind (die jeweils identisch ist mit der des V-Kanals ist). Der Nachteil von Variante a) ist ein Verlust an Genauigkeit aufgrund der geringen Auflösung des Y-Kanals.
  • Für Variante b) ergibt sich dagegen ein unnötig hoher Rechenaufwand M A C b 4 w i d t h y h e i g h t y k 2 c h o u t = 4 2 w i d t h u v 2 h e i g h t u v k 2 c h o u t = 4 M A C a
    Figure DE102020204840A1_0003
    da die Höhe und Breite des Y-Kanals jeweils das Doppelte der des U-Kanals (oder des V-Kanals) betragen.
  • Ein Beispiel für Variante c) ist in 3 gezeigt. Der Y-Eingangskanal weist p*q Pixel auf (z.B. p = 640 als Höhe height und q = 1152 als Breite width). Die Pixel der ersten Zeilen können als y11 , y12 , y13 , ..., y1q adressiert werden. Die Pixel der ersten Spalte als y11 , y21 , y31 , ..., yp1 . Dann ist ypq der letzte Pixel. In 3 sind die Pixel folgendermaßen symbolisiert: y11 als x, y12 als o, y21 als □ und y22 als Δ. Die Eingangskanäle U und V sind in 3 (wie auch in 4) nicht dargestellt. Der V-Kanal hat dieselbe Höhe und Breite wie der U-Kanal, nämlich jeweils die Hälfte der Höhe und die Hälfte der Breite des Y-Kanals.
  • Eine naive Aufsplittung des Y-Kanals in vier Teilbilder Y_I bis Y_IV (mit einer Höhe heightuv von p/2, z.B. 320 Pixel und einer Breite widthuv von q/2, z.B. 576 Pixeln) und einer die ist durch die beiden fetten Geraden auf der linken Seite von 3 symbolisiert. Der Y-Kanal wird in vier „Quadranten“ zerlegt, nämlich Y_I umfasst die Pixel y11 bis yp/2,q/2 , Y_II die Pixel yp/2+1,1 bis yp,q/2 usw. Die vier gestapelten Teilbilder Y_I bis Y_IV sind auf der rechten Seite von 3 schematisch dargestellt.
  • Diese Variante c) geht mit einem moderaten Rechenaufwand einher M A C c = 8 w i d t h u v h e i g h t u v k 2 c h o u t = 2 M A C a
    Figure DE102020204840A1_0004
    also dem Doppelten der Variante a), wohingegen Variante b) den vierfachen Rechenaufwand von Variante a) erfordert.
  • Problematisch ist an Variante c), dass die räumliche Beziehung verloren geht. Pixel an denselben Positionen eines Teilbilds haben nicht mehr dieselbe räumliche Bedeutung, was eine grundlegende Annahme für CNNs verletzt.
  • Anhand von 4 soll ein Ausführungsbeispiel für das Auslesen bzw. Abtasten des Eingangsbildes veranschaulicht werden, das die Prozessierung des Y-Kanals mit der ursprünglichen (hohen) Auflösung ermöglicht, ohne die Rechenzeit zu benachteiligen. Dazu wird der CNN-Beschleuniger mit hoher Effizienz genutzt.
  • Ein erster Aspekt sieht eine Partitionierung Pa des Y-Eingangskanals vor, wobei innerhalb jeder der vier Partitionen Y_1 bis Y_4 die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird.
  • Eine Partition (Y_1, Y_2, Y_3, Y_4) umfasst hierbei zeilen- und spaltenweise jeweils jeden zweiten Pixel des Eingangsbilds, wobei der Startpixel jeweils ein unterschiedlicher aus der Menge y11 , y12 , y21 und y22 ist. Die vertikale Schrittgröße Sv beträgt m Pixel auf dem Eingangsbild, die horizontale Schrittgröße Sh beträgt n Pixel.
  • Die Partition Y_1 kann (mit m=n=2 für unseren speziellen Fall) im Allgemeinen wie folgt zusammengesetzt werden:
    (erste Zeile): y11, y1,1+n, y1,1+2n, ..., y1,1+q-n
    (zweite Zeile): y1+m,1, y1+m,1+n, ...y1+m,1+q-n
    ...
    (letzte Zeile): y1+p-m,1, y1+p-m,1+n, ..., y1+p-m,1+q-n.
  • In 4 auf der rechten Seite entspricht die Partition Y_1 der oberen mit ausschließlich x-Pixeln (als Symbol). Diese x-Pixel weisen zueinander eine im Wesentlichen unveränderte räumliche Beziehung auf, in dem Sinne, dass z.B. y11 oben links und yi+p-m,i+q-n unten rechts angeordnet ist - genau wie es bei den x-Pixeln im links dargestellten Eingangsbild des Y-Kanals der Fall ist.
  • Die Partition Y_2 wird folgendermaßen zusammengesetzt:
    (erste Zeile): y12, y1,2+n, y1,2+2n, ..., y1,2+q-n
    ...
    (letzte Zeile): y1+p-m,2, y1+p-m,2+n, ..., y1+p-m,2+q-n.
  • Dies entspricht auf der rechten Seite der 4 der Partition mit ausschließlich o-Pixeln (als Symbol).
  • Die Partition Y_3 wird zusammengesetzt aus den folgenden Pixeln (□-Pixel in 4):
    (erste Zeile): y21, y2,1+n, y2,1+2n, ..., y2,1+p-n
    ...
    (letzte Zeile): y2+q-m,1, y2+q-m,1+n, ..., y2+q-m,2+p-n.
  • Die Partition Y_4 wird zusammengesetzt aus den folgenden Pixeln (Δ-Pixel in 4):
    (erste Zeile): y22, y2,2+n, y2,2+2n, ..., y2,2+q-n
    ...
    (letzte Zeile): y2+p-m,2, y2+p-m,2+n, ..., y2+p-m,2+q-n.
  • Im (nicht dargestellten) Fall von m*n Partitionen wäre die Partition Y_(m*n) aus den folgenden Pixeln zusammengesetzt:
    (erste Zeile): ym,n, ym,2n, ym,3n, ..., ym,q
    (zweite Zeile): y2m,n, y2m,2n, y2m,3n, ..., y2m,q
    ...
    (letzte Zeile): yp,n, yp,2n, ..., yp,q.
  • Im allgemeinen Fall kann die Erstellung von Partitionen durch Auswahl einer partitionsspezifischen Startadresse und eines allgemeinen „Input-Stride“ (Schrittgröße Sv, Sh auf dem Eingangsbild Y) beschrieben werden. Die Startadresse sind für die erste Partition Y_1 der Pixel y11 des Y-Eingangskanals, für die folgenden Partitionen jeweils Pixel im Bereich um y11 bis ym,n , die in keiner der bereits erstellten Partitionen enthalten sind. Zur vollständigen Abdeckung des Y-Eingangskanals sind m*n Partitionen erforderlich. Der „Input-Stride“ beträgt (bei jeder Partition) jeweils vertikal m und horizontal n.
  • Im Beispiel der 4 gilt m = n = 2 und die Startadressen sind Pixel aus dem Bereich y11 bis y22 , z.B. Partition Y_1 hat als Startadresse den Pixel y11 , Partition Y_2 die Startadresse y12 , Partition Y_3 die Startadresse y21 und Partition Y_4 die Startadresse y22 .
  • Das Resultat der dargestellten Partitionierung sind drei Eingangsbilder mit 4, 1 und 1 Kanälen, die jeweils die gleiche Höhe und Breite haben. Im Gegensatz zum Aufsplitten gemäß Variante c) bleibt hierbei die räumliche Beziehung innerhalb einer Partition Y_1 bis Y_4 erhalten.
  • Ein zweiter Aspekt besteht darin, Merkmale des CNN-Beschleunigers direkt zu verwenden, um die Partitionen Y_1 bis Y_4 zu bilden. Die Möglichkeit eine Schrittgröße auf dem Eingangsbild bei geringfügig unterschiedlichen Startadressen für die unterschiedlichen Partitionen zu setzen erlaubt es, die Partitionierung Pa ohne einen nennenswerten Verlust an Laufzeit zu implementieren.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • EP 3309707 A1 [0003]
    • EP 3442235 A1 [0006]
  • Zitierte Nicht-Patentliteratur
    • J. Redmon et al. zeigen in YOLO9000: Better, Faster, Stronger, 2016 [0004]

Claims (10)

  1. Verfahren zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) auf einem Bilddatenprozessor (14) mit einem künstlichen Neuronalen Netzwerk (16), wobei die Bilddaten in mehrere Kanäle kodiert sind, wobei ein erster Kanal (Y) eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) aufweist, und wobei die Pixel des ersten Kanals (Y) durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt, wobei jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) aufweist, umfassend die Schritte: a) (S1) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung (1) b) Partitionierung (Pa) des ersten Kanals (Y) des Eingangsbilds in m*n Partitionen (Y_1, Y_2, ..., Y_m*n), wobei innerhalb jeder Partition (Y_1, Y_2, ..., Y_m*n) die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und c) Ausgeben der Bilddaten der Partitionen (Y_1, Y_2, ..., Y_m*n) des ersten Kanals (Y) und der Bilddaten des zweiten Kanals (U;V) an den Bilddatenprozessor 14, damit das künstliche Neuronale Netzwerk (16) die Bilddaten auswerten kann.
  2. Verfahren nach Anspruch 1, wobei die Partitionen (Y_1, Y_2, ..., Y_m*n) definiert sind durch jeweils eine von den anderen Partitionen unterschiedliche Startadresse eines Pixels aus einer Pixeladresse (1,1) bis (m,n) des ersten Kanals (Y) des Eingangsbilds und einer einheitlichen Schrittgröße (Sv, Sh) auf dem ersten Kanal (Y) des Eingangsbilds, welches in vertikaler Richtung m und in horizontaler Richtung n Pixel beträgt.
  3. Verfahren nach Anspruch 2, wobei der Bilddatenprozessor (14) einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk (16) umfasst, der ein Auslesen der Partitionen (Y_1, Y_2, ..., Y_m*n) durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem ersten Kanal (Y) des Eingangsbilds vorsieht.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Bilddatenprozessor (14) einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk (16) umfasst, der einen Stapel von mehreren Bildkanaldaten-Paketen während eines Taktzyklus weiterverarbeiten kann, wobei die Partitionen (Y_1, Y_2, ..., Y_m*n) und die Daten des zweiten Bildkanals (U;V) als gestapelte Bildkanaldatenpakete vorliegen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Eingangsbilddaten einen ersten Kanal (Y) einer m-fachen Höhe der Höhe des zweiten Kanals (U;V) und einer n-fachen Breite der Breite des zweiten Kanals (U;V) aufweisen.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Kanal (Y) Helligkeitsinformation und mindestens ein zweiter Kanal (U;V) Farbinformationen zum Inhalt hat.
  7. Verfahren nach Anspruch 6, wobei die Bilddaten des Eingangsbilds in einem YUV-Format vorliegen, wobei der erste Kanal der Y-Kanal ist und zwei zweite Kanäle der U- und der V-Kanal sind.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Kanal (Y) Helligkeitsinformationen und ein zweiter Kanal (U;V) Tiefeninformationen zum Inhalt hat.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei m = n = 2^s ist, wobei s eine natürliche Zahl ist.
  10. Bildauswertungsvorrichtung (10) konfiguriert zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) umfassend eine Eingangsschnittstelle (12), einen Bilddatenprozessor (14) mit einem künstlichen neuronalen Netzwerk (16) und eine Ausgabeschnittstelle (18), wobei - die Eingangsschnittstelle (12) dazu konfiguriert ist, Bilddaten der Bildaufnahmevorrichtung (1) zu empfangen, wobei die Bilddaten in mehrere Kanäle kodiert sind, wobei ein erster Kanal (Y) eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) aufweist, und wobei die Pixel des ersten Kanals (Y) durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt, wobei jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) aufweist, - der Bilddatenprozessor (14) dazu konfiguriert ist, die von der Eingangsschnittstelle (12) empfangenen Bilddaten des ersten Kanals (Y) in m*n Partitionen (Y_1, Y_2, ..., Y_m*n) zu partitionieren, wobei innerhalb jeder Partition (Y_1, Y_2, ..., Y_m*n) die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und die Bilddaten der Partitionen (Y_1, Y_2, ..., Y_m*n) des ersten Kanals (Y) und die Bilddaten des zweiten Kanals (U;V) an das künstliche neuronalen Netzwerk (16) zu übermitteln, und wobei das künstliche neuronale Netzwerk (16) dazu konfiguriert ist, die übermittelten Bilddaten auszuwerten.
DE102020204840.1A 2020-04-16 2020-04-16 Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor Pending DE102020204840A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020204840.1A DE102020204840A1 (de) 2020-04-16 2020-04-16 Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020204840.1A DE102020204840A1 (de) 2020-04-16 2020-04-16 Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Publications (1)

Publication Number Publication Date
DE102020204840A1 true DE102020204840A1 (de) 2021-10-21

Family

ID=77919541

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020204840.1A Pending DE102020204840A1 (de) 2020-04-16 2020-04-16 Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Country Status (1)

Country Link
DE (1) DE102020204840A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021213757B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021213756B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3309707A1 (de) 2016-10-13 2018-04-18 Conti Temic microelectronic GmbH Vorrichtung und verfahren zur gradientenbasierten objekterkennung eines eingangsbildes
EP3442235A1 (de) 2017-08-10 2019-02-13 Continental Automotive GmbH Vorrichtung und verfahren zur rohbilddatenkomprimierung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3309707A1 (de) 2016-10-13 2018-04-18 Conti Temic microelectronic GmbH Vorrichtung und verfahren zur gradientenbasierten objekterkennung eines eingangsbildes
EP3442235A1 (de) 2017-08-10 2019-02-13 Continental Automotive GmbH Vorrichtung und verfahren zur rohbilddatenkomprimierung

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Redmon et al. zeigen in YOLO9000: Better, Faster, Stronger, 2016
MODY, Mihir; MATHEW, Manu; JAGANNATHAN, Shyam: Efficient Pre-Processor for CNN. Electronic Imaging, 2017, 2017. Jg., Nr. 19, S. 50-53.

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021213757B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021213756B3 (de) 2021-12-03 2023-02-02 Continental Autonomous Mobility Germany GmbH Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
WO2023098955A1 (de) 2021-12-03 2023-06-08 Continental Autonomous Mobility Germany GmbH Verfahren zum fusionieren von sensordaten im kontext eines künstlichen neuronalen netzwerks
WO2023098956A1 (de) 2021-12-03 2023-06-08 Continental Autonomous Mobility Germany GmbH Verfahren zum fusionieren von bilddaten im kontext eines künstlichen neuronalen netzwerks

Similar Documents

Publication Publication Date Title
DE19636028C1 (de) Verfahren zur Stereobild-Objektdetektion
DE102019121785A1 (de) Wahrnehmungsvorrichtung für die Hindernisdetektion und Hindernisverfolgung und Wahrnehmungsverfahren für die Hindernisdetektion und Hindernisverfolgung
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102012222497A1 (de) System und Verfahren zum Erkennen von Parkraumlinienmarkierungen für Fahrzeuge
DE102016114168A1 (de) Verfahren zum Erfassen eines Objekts in einem Umgebungsbereich eines Kraftfahrzeugs mit Vorhersage der Bewegung des Objekts, Kamerasystem sowie Kraftfahrzeug
WO2018158020A1 (de) Verfahren und vorrichtung zur ermittlung einer trajektorie in off-road-szenarien
DE102012000459A1 (de) Verfahren zur Objektdetektion
DE112018007485T5 (de) Straßenoberflächen-Detektionsvorrichtung, Bildanzeige-Vorrichtung unter Verwendung einer Straßenoberflächen-Detektionsvorrichtung, Hindernis-Detektionsvorrichtung unter Nutzung einer Straßenoberflächen-Detektionsvorrichtung, Straßenoberflächen-Detektionsverfahren, Bildanzeige-Verfahren unter Verwendung eines Straßenoberflächen-Detektionsverfahrens, und Hindernis-Detektionsverfahren unter Nutzung eines Straßenoberflächen-Detektionsverfahrens
DE102019122690A1 (de) Bewegtobjekterkennungsvorrichtung und Bewegtobjekterkennungsverfahren
DE102020204840A1 (de) Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor
DE102018129388A1 (de) Erkennungsvorrichtung für die äussere umgebung von fahrzeugen
DE102019101482A1 (de) Erkennungsvorrichtung für die äussere umgebung eines fahrzeugs
DE102016014783A1 (de) Verfahren zur Detektion von Objekten
DE102021203020A1 (de) Generative-adversarial-network-modelle zur detektion kleiner strassenobjekte
DE102020107868A1 (de) Objektdetektionssystem für die detektion eines objekts mit hilfe einer hierarchie-pyramide und objektdetektionsverfahren
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
DE112020006935T5 (de) Verfahren und gerät zur parkplatzerkennung sowie vorrichtung und speichermedium
DE102009052868A1 (de) Verfahren zum Betrieb eines Fahrassistenzsystems eines Fahrzeugs
DE102019209473A1 (de) Verfahren und Vorrichtung zur schnellen Erfassung von sich wiederholenden Strukturen in dem Bild einer Straßenszene
DE102016124123A1 (de) Verfahren zum Erzeugen eines Clusters von Bildbereichen zum Erfassen eines Zielobjekts in einem Bild, Computerprogrammprodukt, Kamerasystem und Kraftfahrzeug
DE102021213756B3 (de) Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
EP3685352B1 (de) Verfahren und vorrichtung zum bewerten von bildern, betriebsassistenzverfahren und betriebsvorrichtung
DE102021213757B3 (de) Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
DE10136649B4 (de) Verfahren und Vorrichtung zur Objekterkennung von sich bewegenden Kraftfahrzeugen
DE112020003840T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, und informationsverarbeitungsprogramm

Legal Events

Date Code Title Description
R163 Identified publications notified
R081 Change of applicant/patentee

Owner name: CONTINENTAL AUTONOMOUS MOBILITY GERMANY GMBH, DE

Free format text: FORMER OWNER: CONTI TEMIC MICROELECTRONIC GMBH, 90411 NUERNBERG, DE