DE102020110379A1

DE102020110379A1 - Fahrassistenzsystem, elektronische vorrichtung und betriebsverfahren dafür

Info

Publication number: DE102020110379A1
Application number: DE102020110379.4A
Authority: DE
Inventors: SangSoo Ko; Byeoungsu Kim; SangHyuck HA
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-09-03
Filing date: 2020-04-16
Publication date: 2021-03-04
Also published as: US20210064913A1; CN112446283A; KR20210027894A; US11443151B2

Abstract

Es werden Systeme und ein Verfahren zur automatisierten Fahrassistenz beschrieben. Ein Fahrassistenzsystem kann umfassen: eine erste Sensoreinheit, die dafür eingerichtet ist, ein Eingabebild, das ein anderes Fahrzeug und einen Hintergrund umfasst, bereitzustellen; einen Bildprozessor, der dafür eingerichtet ist, mehrere Pyramidenbilder durch Abwärtssampeln des Eingabebildes zu generieren, eine Tiefenmatrix zu erfassen, die Tiefenwerte von der ersten Sensoreinheit zu dem anderen Fahrzeug und dem Hintergrund umfasst, mehrere Maskendatenelemente mit verschiedenen durchschnittlichen Tiefen der Tiefenwerte auf der Grundlage der Tiefenmatrix zu generieren, und mehrere maskierte Bilder, die verschiedene durchschnittliche Distanzen von der ersten Sensoreinheit darstellen, auf der Grundlage der mehreren Maskendatenelemente und der mehreren Pyramidenbilder auszugeben; einen Merkmalsextrahierer, der dafür eingerichtet ist, Merkmalsdaten eines jeden der mehreren maskierten Bilder auszugeben; und einen Detektor, der dafür eingerichtet ist, das andere Fahrzeug, das in dem Eingabebild enthalten ist, auf der Grundlage der Merkmalsdaten zu detektieren.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNG
Diese Anmeldung beansprucht die Priorität der koreanischen Patentanmeldung Nr. 10-2019-0108932 , eingereicht am 03. September 2019 beim Koreanischen Amt für geistiges Eigentum, deren Offenbarung hiermit durch Verweis in vollem Umfang in den vorliegenden Text aufgenommen wird.
HINTERGRUND
Das erfinderische Konzept betrifft ein Fahrassistenzsystem, eine elektronische Vorrichtung zum Detektieren eines in einem Bild enthaltenen Objekts und ein Betriebsverfahren dafür.
Moderne Fahrzeuge umfassen eine große Anzahl elektronischer Komponenten. Zum Beispiel werden oft Sensoren und Computer verwendet, um Objekte zu detektieren, Distanzen oder Geschwindigkeiten zu berechnen und zukünftige Ereignisse vorherzusagen. Fahrerassistenztechnologien können diese Komponenten verwenden, um einen Fahrer bei der Ausführung von Aktionen wie zum Beispiel Fahrspurwechsel, Fahren mit adaptivem Tempomat, Überwachung toter Winkel und Objektdetektion bei Nachtfahrten zu unterstützen. In einigen Fällen können Fahrzeuge, die mit Fahrerassistenztechnologie versehen sind, automatisch und ohne Zutun des Fahrers auf externe Objekte und Ereignisse reagieren.
Fahrzeuge, die Fahrerassistenztechnologie umfassen, können große Datenmengen erfassen und verarbeiten. Dies stellt erhebliche rechnerische Anforderungen an die Bordcomputer. In einigen Fällen führt dies zu langsameren Rechengeschwindigkeiten, was die Leistung der Fahrerassistenztechnologie verschlechtern und die Sicherheit des Fahrzeugs verringern kann. Daher besteht auf diesem technischen Gebiet Bedarf an Fahrzeugassistenztechnologiesystemen, die weniger Daten und Berechnung erfordern, ohne dass die Leistung darunter leidet.
KURZDARSTELLUNG
Die vorliegende Offenbarung beschreibt ein Fahrassistenzsystem und eine elektronische Vorrichtung zur effektiven Detektierung eines Objekts aus einem hochauflösenden Bild unter Verwendung eines künstlichen neuronalen Netzes sowie ein Betriebsverfahren dafür.
Gemäß einem Aspekt des erfinderischen Konzepts kann ein Fahrassistenzsystem umfassen: eine erste Sensoreinheit, die dafür eingerichtet ist, ein Eingabebild, das ein anderes Fahrzeug und einen Hintergrund umfasst, bereitzustellen; einen Bildprozessor, der dafür eingerichtet ist, mehrere Pyramidenbilder durch Abwärtssampeln des Eingabebildes zu generieren, eine Tiefenmatrix zu identifizieren, die Tiefenwerte zu dem anderen Fahrzeug und dem Hintergrund umfassen, mehrere Maskendatenelemente mit verschiedenen durchschnittlichen Tiefen der Tiefenwerte auf der Grundlage der Tiefenmatrix zu generieren und mehrere maskierte Bilder, die verschiedene durchschnittliche Distanzen darstellen, auf der Grundlage der mehreren Maskendatenelemente und der mehreren Pyramidenbilder auszugeben; einen Merkmalsextrahierer, der dafür eingerichtet ist, Merkmalsdaten eines jeden der mehreren maskierten Bilder auszugeben; und einen Detektor, der dafür eingerichtet ist, das andere Fahrzeug, das in dem Eingabebild enthalten ist, auf der Grundlage der Merkmalsdaten zu detektieren.
Gemäß einem anderen Aspekt des erfinderischen Konzepts kann eine elektronische Vorrichtung zum Detektieren eines Objekts aus einem Eingabebild umfassen: einen Bildprozessor, der dafür eingerichtet ist, ein erstes Pyramidenbild durch Abwärtssampeln des Eingabebildes zu generieren, ein zweites Pyramidenbild durch Abwärtssampeln des ersten Pyramidenbildes zu generieren, eine Teilregion, von der eine durchschnittliche Distanz einen ersten Wert angibt, anhand des ersten Pyramidenbildes als eine erste Region zu identifizieren und eine Teilregion, von der eine durchschnittliche Distanz einen zweiten Wert angibt, anhand des zweiten Pyramidenbildes als eine zweite Region zu identifizieren, wobei der zweite Wert größer als der erste Wert ist, und Bilder der ersten Region und der zweiten Region auszugeben; einen ersten Kern, der dafür eingerichtet ist, erste Merkmalsdaten zu generieren, die Merkmalswerte der ersten Region umfassen, und ein Objekt in der ersten Region auf der Grundlage der ersten Merkmalsdaten zu detektieren; und einen zweiten Kern, der dafür eingerichtet ist, zweite Merkmalsdaten zu generieren, die Merkmalswerte der zweiten Region umfassen, und ein Objekt in der zweiten Region auf der Grundlage der zweiten Merkmalsdaten zu detektieren.
Gemäß einem anderen Aspekt des erfinderischen Konzepts kann ein Betriebsverfahren einer elektronischen Vorrichtung umfassen: Generieren eines ersten Pyramidenbildes durch Abwärtssampeln eines Eingabebildes, das ein Objekt und einen Hintergrund umfasst; Generieren eines zweiten Pyramidenbildes durch Abwärtssampeln des ersten Pyramidenbildes; Maskieren einer verbleibenden Region durch Ausschließen, aus dem ersten Pyramidenbild, einer ersten Region mit einer durchschnittlichen Distanz eines ersten Wertes; Maskieren einer verbleibenden Region durch Ausschließen, aus dem zweiten Pyramidenbild, einer zweiten Region mit einer durchschnittlichen Distanz eines zweiten Werts, der kleiner als der erste Wert ist; Erfassen mehrerer Merkmalsdatenelemente aus mehreren maskierten Bildern, die auf der Grundlage der Maskierungsoperationen generiert werden; und Detektieren des Objekts auf der Grundlage der mehreren Merkmalsdatenelemente.
Gemäß einer anderen Ausführungsform des erfinderischen Konzepts kann ein Verfahren zur Bildverarbeitung umfassen: Empfangen von Eingangsdaten, die Bilddaten und Distanzdaten, die den Bilddaten entsprechen, umfassen; Generieren mehrerer abwärtsgesampelter Bilder auf der Grundlage der Bilddaten, wobei jedes der mehreren abwärtsgesampelten Bilder einer anderen Bildauflösung entspricht; Generieren mehrerer Bildmasken auf der Grundlage der Distanzdaten, wobei jede der mehreren Bildmasken einem anderen durchschnittlichen Distanzwert entspricht; Generieren mehrerer maskierter Bilder, wobei jedes der mehreren maskierten Bilder auf einem der mehreren abwärtsgesampelten Bilder und einer der mehreren Bildmasken basiert; Generieren von Merkmalsdaten auf der Grundlage der mehreren maskierten Bilder; und Detektieren eines Objekts auf der Grundlage der Merkmalsdaten.
Figurenliste
Ausführungsformen des erfinderischen Konzepts werden anhand der folgenden detaillierten Beschreibung in Verbindung mit den beiliegenden Zeichnungen besser verstanden. In den Zeichnungen ist Folgendes dargestellt:

1 ist ein Blockdiagramm einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
2 ist ein Blockdiagramm eines Fahrassistenzsystems gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
3 veranschaulicht ein künstliches neuronales Netz und eine rechnerische Verarbeitung mit Hilfe des künstlichen neuronalen Netzes;
4 ist ein Blockdiagramm einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
5 ist ein Blockdiagramm einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
6 ist ein Blockdiagramm einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
7 und 8 veranschaulichen Informationen über eine interessierende Region (Region of Interest, RoI) und Maskendaten gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
9 veranschaulicht eine Operation des Maskierens von Pyramidenbildern und des Generierens maskierter Bilder gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
10A, 10B und 10C veranschaulichen eine Bildverarbeitungsoperation eines Vorprozessors gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
11A und 11B sind Blockdiagramme zum Beschreiben eines Merkmalsextrahierers und einer Kerneinheit gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
12 ist ein Blockdiagramm einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
13 ist ein Blockdiagramm einer elektronischen Vorrichtung zum Beschreiben einer Sensorfusionierungsoperation gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
14 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
15 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts;
16 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts; und
17 ist ein Blockdiagramm eines elektronischen Systems gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.

DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Die vorliegende Offenbarung beschreibt Systeme und Verfahren zur Objektdetektion. Zum Beispiel können Objektdetektionssysteme verwendet werden, um Fahrstabilität und Effizienz in einem Fahrzeug zu gewährleisten, indem ein Objekt im Sichtfeld eines Fahrassistenzsystems identifiziert wird. Im Zuge der Weiterentwicklung der Technik nimmt die Menge der durch Fahrzeugsensoren erfassten Daten generell zu. Hochauflösende Bilder sind besonders nützlich, um weit entfernte Objekte zu detektieren. Aufgrund der Verwendung dieser hochauflösenden Bilder kann ein Fahrzeugobjektdetektionsmodell auf einen erhöhten Berechnungsaufwand angewiesen sein, um die Bilddaten in Echtzeit zu verarbeiten.
In einigen Fällen können die steigenden Rechenanforderungen die Kapazität von Bordcomputersystemen übersteigen. Wenn dies geschieht, so kann der Echtzeitbetrieb eines Fahrzeugs oder Systems beeinträchtigt werden. Wenn dieser Herausforderung durch eine Verringerung der Komplexität eines Merkmalsextrahierers im System-Backbone begegnet wird, so kann zwar der Rechenaufwand verringert werden, jedoch kann dafür die Genauigkeit der Objektidentifizierung verloren gehen.
Die Funktionsweise von Fahrerassistenzsystemen kann darauf basieren, dass sie ein Bild identifizieren, das eine Reihe von Objekten (sowohl nahe als auch entfernte Objekte) umfasst. Als Nächstes werden Größe und Distanz jedes Objekts bestimmt (das heißt, ob es sich um ein großes Objekt, wie zum Beispiel ein Fahrzeug oder einen Menschen, oder um ein kleines Objekt, wie zum Beispiel einen Vogel oder einen Ball, handelt). In einigen Fällen kann die Größe des Objekts zur Bestimmung der Distanz zwischen dem Objekt und dem Fahrzeug verwendet werden. Nachdem die Distanz jedes Objekts bestimmt wurde, werden eine oder mehrere interessierende Regionen (Regions-of-Interest, Rol) auf der Grundlage der Objekte und der Distanzen zu jedem Objekt bestimmt.
Gemäß Ausführungsformen der vorliegenden Offenbarung kann eine Rol in mehrere Teilregionen unterteilt werden, die auf der Grundlage der Distanzinformationen auf eine niedrigere Auflösung abwärtsgesampelt werden können. Ein modifiziertes Bild, das einige abwärtsgesampelte Abschnitte umfasst, kann als Eingabe für einen Merkmalsextrahierer, einen Tracker oder dergleichen verwendet werden. Durch die Verwendung von Bildern, bei denen bestimmte Abschnitte abwärtsgesampelt werden, so kann das Gesamtdatenvolumen reduziert werden. Da jedoch für kritische Teile des Bildes eine hohe Auflösung verwendet wird, wird die Gesamtleistung des Systems möglicherweise nicht verringert.
Im Folgenden werden Ausführungsformen des erfinderischen Konzepts anhand der begleitenden Zeichnungen ausführlich beschrieben.
1 ist ein Blockdiagramm einer elektronischen Vorrichtung 1 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Die elektronische Vorrichtung 1 kann gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts durch die Analyse von Eingabedaten valide Informationen extrahieren. Zusätzlich kann die elektronische Vorrichtung 1 auf der Grundlage der extrahierten Informationen Ausgabedaten generieren. Zum Beispiel können die Eingabedaten ein Bild sein, das durch Fotografieren einer Frontsicht vor der elektronischen Vorrichtung 1 erhalten wird. Die validen Informationen können ein Objekt (ein anderes Fahrzeug, ein Fußgänger oder dergleichen) sein. Die Ausgabedaten können Daten des aus dem Bild detektierten Objekts sein. Die elektronische Vorrichtung 1 kann zum Beispiel ein Anwendungsprozessor sein. Der Anwendungsprozessor kann verschiedene Arten einer rechnerischen Verarbeitung durchführen. Eine in dem Anwendungsprozessor enthaltene neuronale Verarbeitungseinheit (Neural Processing Unit, NPU) 12 kann unter Verwendung eines künstlichen neuronalen Netzes eine rechnerische Verarbeitung durchführen.
Wie in 1 zu sehen, kann die elektronische Vorrichtung 1 einen Prozessor 10, einen Direktzugriffsspeicher (Random Access Memory, RAM) 20, einen Speicher 30, eine Sensoreinheit 40, ein Kommunikationsmodul 50 und einen Bus 90 zum Ausführen ihrer Kommunikation umfassen. Der Prozessor 10 kann eine zentrale Verarbeitungseinheit (Central Processing Unit, CPU) 11 und die NPU 12 umfassen. Die elektronische Vorrichtung 1 kann des Weiteren ein Eingabe-/Ausgabemodul, ein Sicherheitsmodul, eine Energiesteuerungsvorrichtung und dergleichen umfassen. Zusätzlich kann die elektronische Vorrichtung 1 noch verschiedene Arten von Computervorrichtungen umfassen.
Die CPU 11 steuert einen allgemeinen Betrieb der elektronischen Vorrichtung 1. Die CPU 11 kann einen Einkernprozessor oder einen Mehrkernprozessor umfassen. Die CPU 11 kann Programme und/oder Daten verarbeiten oder ausführen, die in dem Speicher 30 gespeichert sind. Zum Beispiel kann die CPU 11 eine Funktion der NPU 12 steuern, indem sie Programme ausführt, die in dem Speicher 30 gespeichert sind.
Die NPU 12 kann Eingangsdaten empfangen, eine arithmetische Operation unter Verwendung eines künstlichen neuronalen Netzes durchführen und Ausgangsdaten auf der Grundlage des Ergebnisses der arithmetischen Operation bereitstellen. Die NPU 12 kann eine rechnerische Verarbeitung auf der Grundlage verschiedener Arten von Netzen durchführen, wie zum Beispiel ein neuronales Faltungsnetz (Convolution Neural Network, CNN), eine Region mit neuronalem Faltungsnetz (Region with Convolution Neural Network, R-CNN), ein Regionsvorschlagsnetz (Region Proposal Network, RPN), ein rekurrentes neuronales Netz (Recurrent Neural Network, RNN), ein vollständig gefaltetes Netz (Fully Convolutional Network), ein Lang-Kurzzeitgedächtnis (Long Short-Term Memory, LSTM)-Netz und ein Klassifizierungsnetz (Classification Network). Die NPU 12 ist jedoch nicht darauf beschränkt und kann verschiedene Arten einer rechnerischen Verarbeitung zur Simulation eines menschlichen neuronalen Netzes durchführen.
Der RAM 20 kann Programme, Daten oder Instruktionen vorübergehend speichern. Zum Beispiel können Programme und/oder Daten, die in dem Speicher 30 gespeichert sind, gemäß der Steuerung der CPU 11 oder einem Boot-Code vorübergehend in dem RAM 20 gespeichert werden. Zum Beispiel gehören zum RAM 20 dynamischer RAM (DRAM), statischer RAM (SRAM), synchroner DRAM (SDRAM) oder dergleichen.
Der Speicher 30 ist ein Speicherplatz zum Speichern von Daten und kann ein Betriebssystem (Operating System, OS), verschiedene Arten von Programmen und verschiedene Arten von Daten speichern. Der Speicher 30 kann ein DRAM sein, ist aber nicht darauf beschränkt. Der Speicher 30 kann flüchtiger Speicher und/oder nichtflüchtiger Speicher sein. Zu den nichtflüchtigen Speichern können Nurlesespeicher (Read-Only Memory, ROM), Flash-Speicher, Phasenwechsel-RAM (Phase-Change RAM, PRAM), magnetischer RAM (Magnetic RAM, MRAM), ohmischer RAM (Resistive RAM, RRAM), ferroelektrischer RAM (Ferroelectric RAM, FRAM) und dergleichen gehören. Gemäß einer Ausführungsform kann der Speicher 30 durch ein Festplattenlaufwerk (Hard Disk Drive, HDD), ein Festkörperlaufwerk (Solid-State Drive, SSD) oder dergleichen implementiert werden.
Die Sensoreinheit 40 kann Informationen über ein durch die elektronische Vorrichtung 1 erkanntes Objekt erfassen. Zum Beispiel kann die Sensoreinheit 40 eine Bildsensoreinheit sein. In diesem Fall kann die Sensoreinheit 40 mindestens einen Bildsensor umfassen. Die Sensoreinheit 40 kann ein Bildsignal von außerhalb der elektronischen Vorrichtung 1 lesen oder empfangen und das Bildsignal in Bilddaten, das heißt einen Bild-Frame, umwandeln. Als ein weiteres Beispiel kann die Sensoreinheit 40 eine Distanzsensoreinheit sein. In diesem Fall kann die Sensoreinheit 40 mindestens einen Distanzsensor umfassen. Der Distanzsensor kann mindestens eine von verschiedenen Arten von Abtastvorrichtungen umfassen, zum Beispiel einen Light Detection and Ranging (LIDAR)-Sensor, einen Radio Detection and Ranging (RADAR)-Sensor, einen Time of Flight (ToF)-Sensor, einen Ultraschallsensor und einen Infrarotsensor. Der LIDAR-Sensor und der RADAR-Sensor können gemäß den effektiven Messdistanzen unterschieden werden. Zum Beispiel kann der LIDAR-Sensor als ein LIDAR-Sensor mit großer Reichweite und ein LIDAR-Sensor mit kurzer Reichweite unterschieden werden, und der RADAR-Sensor kann als ein RADAR-Sensor mit großer Reichweite und ein RADAR-Sensor mit kurzer Reichweite unterschieden werden. Die Sensoreinheit 40 ist nicht darauf beschränkt. Die Sensoreinheit 40 kann des Weiteren mindestens einen von einem Magnetsensor, einem Positionssensor (zum Beispiel GPS), einem Beschleunigungssensor, einem Luftdrucksensor, einem Temperatur-/Feuchtesensor, einem Näherungssensor und einem Gyroskopsensor umfassen, ist aber nicht darauf beschränkt. Der Durchschnittsfachmann kann die Funktionsweise jedes Sensors intuitiv aus dessen Namen herleiten. Daher wird hier auf eine detaillierte Beschreibung verzichtet.
Das Kommunikationsmodul 50 kann Daten der elektronischen Vorrichtung 1 senden und/oder empfangen. Zum Beispiel kann das Kommunikationsmodul 50 mit einem externen Ziel der elektronischen Vorrichtung 1 kommunizieren. In diesem Fall kann das Kommunikationsmodul 50 eine Kommunikation durch ein „Vehicle To Everything“ (V2X)-Regime durchführen. Zum Beispiel kann das Kommunikationsmodul 50 eine Kommunikation durch ein „Vehicle To Vehicle“ (V2V)-Regime, ein „Vehicle To Infrastructure“ (V2I)-Regime, ein „Vehicle To Pedestrian“ (V2P)-Regime und ein „Vehicle To Nomadic Devices“ (V2N)-Regime durchführen. Das Kommunikationsmodul 50 ist jedoch nicht darauf beschränkt. Das Kommunikationsmodul 50 kann Daten über verschiedene bekannte Kommunikationsregimes senden und empfangen. Zum Beispiel kann das Kommunikationsmodul 50 eine Kommunikation mittels eines Kommunikationsverfahrens durchführen wie zum Beispiel die Third-Generation (3G), Long Term Evolution (LTE), Bluetooth, Bluetooth Low Energy (BLE), ZigBee, Near Field Communication (NFC), Ultraschall oder dergleichen. Zusätzlich kann das Kommunikationsmodul 50 sowohl Kurzstreckenkommunikation als auch Langstreckenkommunikation durchführen.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann der Prozessor 10 ein Eingabebild empfangen; dann kann der Prozessor 10 mehrere Bilder durch Abwärtssampeln des Eingabebildes generieren. Die mehreren Bilder können verschiedene Größen aufweisen. Die Größe kann die Auflösung angeben. Der Prozessor 10 kann das am weitesten entfernte Objekt aus einem Bild mit einer relativ großen Größe identifizieren und das nächstliegende Objekt aus einem Bild mit einer relativ kleinen Größe identifizieren. In diesem Prozess kann der Prozessor 10 eine verbleibende Region durch Ausschließen eines Objekts maskieren. Daher kann ein Rechenaufwand des Prozessors 10 reduziert werden, indem ein Objekt auf der Grundlage einer durch die Maskierung ausgeschlossenen Region identifiziert wird.
2 ist ein Blockdiagramm eines Fahrassistenzsystems 2 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden wird eine Beschreibung unter Bezug auf die Bezugszeichen von 1 gegeben.
Wie in 2 gezeigt, kann das Fahrassistenzsystem 2 den Prozessor 10, die Sensoreinheit 40, das Kommunikationsmodul 50, eine Fahrsteuereinheit 60, eine autonome Fahreinheit 70 und eine Benutzerschnittstelle (Interface, IF) 80 umfassen. Der Prozessor 10, die Sensoreinheit 40 und das Kommunikationsmodul 50 sind die gleichen wie jene oder ähneln jenen, die oben mit Bezug auf 1 beschrieben wurden. Daher wird hier auf ihre Beschreibung verzichtet.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann das Fahrassistenzsystem 2 ein Objekt detektieren. Die Objektdetektion erfolgt anhand von Informationen über eine äußere Umgebung, die durch die Sensoreinheit 40 erfasst werden. Zum Beispiel kann die Sensoreinheit 40 ein Bild aufnehmen und das aufgenommene Bild an den Prozessor 10 senden. Der Prozessor 10 kann ein Objekt (zum Beispiel ein anderes Fahrzeug) auf der Grundlage des aufgenommenen Bildes (im Folgenden ein „Eingabebild“) detektieren und die Fahrsteuereinheit 60 und die autonome Fahreinheit 70 steuern. Als ein Beispiel beschrieben, detektiert der Prozessor 10 ein Objekt auf der Grundlage eines Eingabebildes, jedoch ist der Prozessor 10 nicht darauf beschränkt. Zum Beispiel kann der Prozessor 10 ein Objekt auf der Grundlage von Tiefeninformationen detektieren, die von einem Distanzsensor ausgegeben werden.
Die Fahrsteuereinheit 60 kann eine Fahrzeuglenkvorrichtung und eine Drosselklappensteuervorrichtung umfassen. Die Fahrzeuglenkvorrichtung ist dafür eingerichtet, eine Fahrtrichtung eines Fahrzeugs zu steuern. Die Drosselklappensteuervorrichtung ist dafür eingerichtet, die Beschleunigung und/oder Verlangsamung durch Steuern eines Elektromotors oder Verbrennungsmotors des Fahrzeugs zu steuern. Die Fahrsteuereinheit 60 kann auch eine Bremsvorrichtung, die dafür eingerichtet ist, das Bremsen des Fahrzeugs zu steuern, eine externe Beleuchtungsvorrichtung und dergleichen umfassen.
Die autonome Fahreinheit 70 kann eine Rechenvorrichtung umfassen, die dafür eingerichtet ist, eine autonome Steuerung der Fahrsteuereinheit 60 zu implementieren. Zum Beispiel kann die autonome Fahreinheit 70 mindestens eine der Komponenten der elektronischen Vorrichtung 1 umfassen. Die autonome Fahreinheit 70 kann einen Speicher zum Speichern mehrerer Programminstruktionen und einen oder mehrere Prozessoren umfassen, die zum Ausführen der Programminstruktionen eingerichtet sind. Die autonome Fahreinheit 70 kann dafür eingerichtet sein, die Fahrsteuereinheit 60 auf der Grundlage eines von der Sensoreinheit 40 ausgegebenen Abtastsignals zu steuern. Die Benutzer-IF 80 kann verschiedene elektronische Vorrichtungen und mechanische Vorrichtungen umfassen, die in einem Fahrersitz, einem Beifahrersitz oder dergleichen enthalten sind, wie zum Beispiel ein Display, das ein Armaturenbrett eines Fahrzeugs anzeigt.
Der Prozessor 10 verwendet verschiedene Abtastdatenelemente wie zum Beispiel ein Eingabebild und Tiefeninformationen, um ein Objekt zu detektieren. In diesem Fall kann der Prozessor 10 ein künstliches neuronales Netz zur effizienten rechnerischen Verarbeitung verwenden. Zum Beispiel kann die NPU 12 ein Berechnungsverfahren ausführen, das unten mit Bezug auf 3 beschrieben wird.
3 veranschaulicht ein künstliches neuronales Netz NN und die rechnerische Verarbeitung mit Hilfe des künstlichen neuronalen Netzes NN.
Wie in 3 gezeigt, kann das künstliche neuronale Netz NN mehrere Schichten umfassen, zum Beispiel erste bis n-te Schichten L1 bis Ln. Jede der mehreren Schichten L1 bis Ln kann eine lineare Schicht oder eine nichtlineare Schicht sein. Gemäß einer Ausführungsform des erfinderischen Konzepts können mindestens eine lineare Schicht und mindestens eine nichtlineare Schicht kombiniert und als eine einzige Schicht bezeichnet werden. Zum Beispiel kann eine lineare Schicht eine Faltungsschicht und eine vollständig verbundene Schicht umfassen. Eine nichtlineare Schicht kann eine Sampling-Schicht, eine Pooling-Schicht und eine Aktivierungsschicht umfassen.
Zum Beispiel kann die erste Schicht L1 eine Faltungsschicht sein, und die zweite Schicht L2 kann eine Sampling-Schicht sein. Das künstliche neuronale Netz NN kann des Weiteren eine Aktivierungsschicht enthalten und kann des Weiteren eine Schicht umfassen, die dafür eingerichtet ist, eine andere Art von Rechenoperationen auszuführen.
Jede der mehreren Schichten L1 bis Ln kann, als eine Eingabe-Merkmalsmatrix, Eingangsbilddaten oder eine in einer vorherigen Schicht generierte Merkmalsmatrix empfangen und an der Eingabe-Merkmalsmatrix eine arithmetische Operation ausführen, wodurch eine Ausgabe-Merkmalsmatrix generiert wird. In diesem Fall zeigt eine Merkmalsmatrix Daten an, die verschiedene Merkmale von Eingangsdaten darstellen. Die ersten bis dritten Merkmalsmatrizen (Featuremap, FM) FM1, FM2 und FM3 können zum Beispiel ein zweidimensionales (2D-) Matrix- oder ein 3D-Matrixformat aufweisen. Die ersten bis dritten Merkmalsmatrizen FM1 bis FM3 können eine Breite (oder Spalte) W, eine Höhe (oder Reihe) H und eine Tiefe D aufweisen, die einer x-Achse, einer y-Achse bzw. einer z-Achse in einem Koordinatensystem entsprechen. Dabei kann die Tiefe D als die Anzahl der Kanäle bezeichnet werden.
Die erste Schicht L1 kann die zweite Merkmalsmatrix FM2 generieren, indem die erste Merkmalsmatrix FM1 und eine Gewichtsmatrix (Weightmap) WM gefaltet werden. Die Gewichtsmatrix WM kann die erste Merkmalsmatrix FM1 filtern und kann als ein Filter oder Kernel bezeichnet werden. Zum Beispiel ist eine Tiefe, das heißt die Anzahl der Kanäle, der Gewichtsmatrix WM die gleiche wie eine Tiefe der ersten Merkmalsmatrix FM1. Zusätzlich können dieselben Kanäle der Gewichtsmatrix WM und der ersten Merkmalsmatrix FM1 gefaltet werden. Die Gewichtsmatrix WM kann in einer Art des Traversierens verschoben werden, indem die erste Merkmalsmatrix FM1 als ein Schiebefenster verwendet wird. Ein Verschiebungsbetrag kann als eine „Schrittlänge“ oder „Schritt“ bezeichnet werden. Während jeder Verschiebung kann jeder in der Gewichtsmatrix WM enthaltene Gewichtswert mit Pixelwerten in einer Region, welche die erste Merkmalsmatrix FM1 überlappt, multipliziert und zu diesen addiert werden. Gemäß der Faltung der ersten Merkmalsmatrix FM1 und der Gewichtsmatrix WM kann ein einzelner Kanal der zweiten Merkmalsmatrix FM2 generiert werden. Obgleich 3 eine Gewichtsmatrix WM zeigt, können im Wesentlichen mehrere Gewichtsmatrizen mit der ersten Merkmalsmatrix FM1 gefaltet werden, um mehrere Kanäle der zweiten Merkmalsmatrix FM2 zu generieren. Mit anderen Worten kann die Anzahl der Kanäle der zweiten Merkmalsmatrix FM2 der Anzahl der Gewichtsmatrizen entsprechen.
Die zweite Schicht L2 kann die dritte Merkmalsmatrix FM3 generieren, indem sie eine räumliche Größe der zweiten Merkmalsmatrix FM2 ändert. Zum Beispiel kann die zweite Schicht L2 eine Sampling-Schicht sein. Die zweite Schicht L2 kann ein Aufwärtssampeln oder Abwärtssampeln durchführen. Die zweite Schicht L2 kann einen Teil der in der zweiten Merkmalsmatrix FM2 enthaltenen Daten auswählen. Zum Beispiel kann ein 2D-Fenster (Window, WD) auf der zweiten Merkmalsmatrix FM2 in einer Einheit einer Größe des Fensters WD (zum Beispiel 4 × 4-Matrix) verschoben werden, und es kann ein Wert einer bestimmten Position (zum Beispiel erste Reihe erste Spalte) in einer Region ausgewählt werden, die sich mit dem Fenster WD überlappt. Die zweite Schicht L2 kann die ausgewählten Daten als Daten für die dritte Merkmalsmatrix FM3 ausgeben. Als ein weiteres Beispiel kann die zweite Schicht L2 eine Pooling-Schicht sein. In diesem Fall kann die zweite Schicht L2 einen Maximalwert der Merkmalswerte (oder einen Mittelwert der Merkmalswerte) in der Region auswählen, die sich mit dem Fenster WD auf der zweiten Merkmalsmatrix FM2 überlappt. Die zweite Schicht L2 kann die ausgewählten Daten als Daten für die dritte Merkmalsmatrix FM3 ausgeben.
Infolgedessen kann die dritte Merkmalsmatrix FM3 mit einer im Vergleich zu der zweiten Merkmalsmatrix FM2 veränderten räumlichen Größe generiert werden. Die Anzahl der Kanäle der dritten Merkmalsmatrix FM3 kann die gleiche sein wie die Anzahl der Kanäle der zweiten Merkmalsmatrix FM2. Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann eine Sampling-Schicht eine schnellere arithmetische Operationsgeschwindigkeit aufweisen als eine Pooling-Schicht. Die Sampling-Schicht kann die Qualität eines Ausgabebildes erhöhen (zum Beispiel in Bezug auf das Spitzen-Signal-Rausch-Verhältnis (Peak Signal To Noise Ratio, PSNR). Zum Beispiel kann eine arithmetische Operation durch eine Pooling-Schicht einen Maximalwert oder einen Mittelwert berechnen. Daher kann die Pooling-Schicht eine längere arithmetische Operationszeit aufweisen als eine Sampling-Schicht.
Gemäß einer Ausführungsform des erfinderischen Konzepts ist die zweite Schicht L2 nicht auf eine Sampling-Schicht oder eine Pooling-Schicht beschränkt. Zum Beispiel kann die zweite Schicht L2 eine Faltungsschicht ähnlich der ersten Schicht L1 sein. Die zweite Schicht L2 kann die dritte Merkmalsmatrix FM3 generieren, indem sie die zweite Merkmalsmatrix FM2 und eine Gewichtsmatrix faltet. In diesem Fall kann sich die Gewichtsmatrix, an der die Faltungsoperation in der zweiten Schicht L2 durchgeführt wurde, von der Gewichtsmatrix WM, an der die Faltungsoperation in der ersten Schicht L1 durchgeführt wurde, unterscheiden.
Eine N-te Merkmalsmatrix kann in einer N-ten Schicht durch Passieren mehrerer Schichten, einschließlich der ersten Schicht L1 und der zweiten Schicht L2, generiert werden. Die N-te Merkmalsmatrix kann in eine Rekonstruktionsschicht eingegeben werden, die sich an einem hinteren Ende des künstlichen neuronalen Netzes NN befindet, von wo Ausgangsdaten ausgegeben werden. Die Rekonstruktionsschicht kann auf der Grundlage der N-ten Merkmalsmatrix ein Ausgabebild generieren. Alternativ kann die Rekonstruktionsschicht mehrere Merkmalsmatrizen empfangen. Die mehreren Merkmalsmatrizen können die N-te Merkmalsmatrix umfassen, welche die erste Merkmalsmatrix FM1, die zweite Merkmalsmatrix FM2 und dergleichen sein kann. Zusätzlich können die mehreren Merkmalsmatrizen ein Ausgabebild auf der Grundlage der mehreren Merkmalsmatrizen generieren.
Die dritte Schicht L3 kann Klassen (Classes) CL der Eingangsdaten klassifizieren, indem Merkmale der dritten Merkmalsmatrix FM3 kombiniert werden. Zusätzlich kann die dritte Schicht L3 ein Erkennungssignal (Recognition) REC generieren, das einer Klasse entspricht. Die Eingangsdaten können Beispiel Daten eines Bild- oder Video-Frames sein. In diesem Fall kann die dritte Schicht L3 ein Objekt erkennen, das in einem durch die Frame-Daten angezeigten Bild enthalten ist, indem sie eine dem Objekt entsprechende Klasse auf der Grundlage der dritten Merkmalsmatrix FM3 extrahiert, die von der zweiten Schicht L2 bereitgestellt wird. Die dritte Schicht L3 kann dann ein Erkennungssignal REC generieren, das dem erkannten Objekt entspricht.
In einem künstlichen neuronalen Netz können Schichten einer unteren Ebene, wie zum Beispiel Faltungsschichten, Merkmale der unteren Ebene (zum Beispiel einen Umriss oder einen Gradienten eines Fahrzeugs) aus Eingangsdaten oder einer Eingabe-Merkmalsmatrix extrahieren. Schichten einer höheren Ebene, wie zum Beispiel eine vollständig verbundene Schicht, können Merkmale, d. h. eine Klasse, der höheren Ebene (zum Beispiel eine Rückleuchte, eine Heckscheibe oder dergleichen eines Fahrzeugs) aus einer Eingabe-Merkmalsmatrix extrahieren oder detektieren.
4 ist ein Blockdiagramm einer elektronischen Vorrichtung 3 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Wie in 4 gezeigt, kann die elektronische Vorrichtung 3 eine Sensoreinheit 100, einen Bildprozessor 200, einen Merkmalsextrahierer 300 und einen Detektor 510 umfassen. Der Bildprozessor 200 kann des Weiteren einen Vorprozessor 210, ein Region-of-Interest (RoI)-Netz 220, einen Maskengenerator 230 und eine Maskierungseinheit 240 umfassen. Die elektronische Vorrichtung 3 kann mindestens als eine Teilkonfiguration der elektronischen Vorrichtung 1, wie oben mit Bezug auf 1 und 2 beschrieben, enthalten sein. Zum Beispiel können der Bildprozessor 200, der Merkmalsextrahierer 300 und der Detektor 510 der elektronischen Vorrichtung 3 in dem Prozessor 10 enthalten sein, und Befehle, Instruktionen oder Programmcode zum Ausführen von Operationen und Funktionen des Bildprozessors 200, des Merkmalsextrahierers 300 und des Detektors 510 können in dem Speicher 30 gespeichert werden. Die Sensoreinheit 100 ist die gleiche wie die oben unter Bezug auf 1 und 2 beschriebene Sensoreinheit 40. Daher wird hier auf eine detaillierte Beschreibung verzichtet. Zusätzlich kann die elektronische Vorrichtung 3 mindestens als eine Teilkonfiguration des oben unter Bezug auf 2 beschriebenen Fahrassistenzsystems 2 enthalten sein. Zum Beispiel kann die elektronische Vorrichtung 3 ein Bild eines anderen Fahrzeugs von der Sensoreinheit 100 erfassen. Der Bildprozessor 200 kann eine Bildverarbeitung durchführen, um das andere Fahrzeug zu detektieren. Der Merkmalsextrahierer 300 kann ein Merkmal des Bildes extrahieren, und der Detektor 510 kann das andere Fahrzeug detektieren. Die elektronische Vorrichtung 3 kann zum Beispiel ein Fahrassistenzsystem zur Unterstützung des Fahrens eines Fahrers oder zum autonomen Fahren sein. Alternativ kann die elektronische Vorrichtung 3 als ein Teil eines Fahrassistenzsystems enthalten sein.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die Sensoreinheit 100 eine Frontsicht vor dem Fahrzeug fotografieren und ein Eingabebild (Image) IM ausgeben. Das Eingabebild IM kann ein Objekt und einen Hintergrund umfassen. Das Eingabebild IM kann zum Beispiel Daten über ein 2D-Bild eines RGB-Formats umfassen, ist aber nicht darauf beschränkt. Die Sensoreinheit 100 kann als eine erste Sensoreinheit 100 bezeichnet werden, die von einer Sensoreinheit 520 zu unterscheiden ist, die unten noch mit Bezug auf 13 beschrieben wird. Die Sensoreinheit 520 kann als eine zweite Sensoreinheit 520 bezeichnet werden.
Der Bildprozessor 200 kann das Eingabebild IM empfangen, mindestens eine Teilregion des Eingabebildes IM maskieren, und ein maskiertes Bild IMK ausgeben.
Der Vorprozessor 210 kann das Eingabebild IM empfangen, das Eingabebild IM abwärtssampeln und ein Pyramidenbild (Pyramid Image) PIM generieren und ausgeben. Zum Beispiel kann der Vorprozessor 210 ein erstes Pyramidenbild generieren, indem er die horizontale Länge und die vertikale Länge des Eingabebildes IM mit einer bestimmten Rate abwärtssampelt. Der Vorprozessor 210 kann dann ein zweites Pyramidenbild generieren, indem er das erste Pyramidenbild erneut mit einer bestimmten Rate abwärtssampelt. Als ein weiteres Beispiel kann das erste Pyramidenbild durch einmaliges Abwärtssampeln des Eingabebildes IM generiert werden. Das zweite Pyramidenbild kann durch zweimaliges Abwärtssampeln des Eingabebildes IM generiert werden. Zum Beispiel kann der Vorprozessor 210 mehrere Pyramidenbilder PIM, die aus dem Eingabebild IM abgeleitet werden, mit allmählich abnehmender Größe im Vergleich zu dem Eingabebild IM generieren.
Der Vorprozessor 210 kann eine verbleibende Region maskieren, indem er ein interessierendes Objekt (zum Beispiel mindestens eines von einem anderen Fahrzeug, einer Straße oder einem Fußgänger) aus dem Eingabebild IM ausschließt und auf der Grundlage des maskierten Bildes ein Pyramidenbild PIM generiert. Zum Beispiel kann der Vorprozessor 210, obgleich nicht gezeigt, RoI-Informationen RID empfangen und anhand der RoI-Informationen RID die Daten der verbleibenden Region durch Ausschließen des interessierenden Objekts maskieren.
Der Vorprozessor 210 kann das Eingabebild IM empfangen und dann die Tiefenmatrix (Depthmap) DP erfassen und ausgeben, die Tiefendaten über das Objekt und den Hintergrund, die in dem Eingabebild IM enthalten sind, umfasst. Die Tiefendaten können Tiefenwerte umfassen, die zum Beispiel eine Distanz von einem Benutzer oder einem eigenen Fahrzeug zu einem Objekt oder einem anderen Fahrzeug angeben. Die Tiefenmatrix DP zeigt eine Matrix an, die zum Beispiel Tiefenwerte von der Sensoreinheit 100 zu einem anderen Fahrzeug und einen Hintergrund umfasst. Die Sensoreinheit 100 kann zum Beispiel eine Stereokamera umfassen. In diesem Fall kann das Eingabebild IM ein Bild für das linke Auge und ein Bild für das rechte Auge umfassen. Der Vorprozessor 210 kann die Parität unter Verwendung des Bildes für das linke Auge und des Bildes für das rechte Auge berechnen und die Tiefenmatrix DP auf der Grundlage der berechneten Parität erfassen. Die Sensoreinheit 100 ist jedoch nicht darauf beschränkt, und die Sensoreinheit 100 kann statt der Stereokamera auch eine Kombination aus einer einzelnen Kamera und einem Distanzsensor sein. Zum Beispiel kann die Sensoreinheit 100 2D-Informationen mittels der Einzelkamera ausgeben und 3D-Informationen mittels des Distanzsensors ausgeben. In diesem Fall kann der Vorprozessor 210 unter Verwendung der 2D-Informationen und der 3D-Informationen die Tiefenmatrix DP erfassen, die sich sowohl auf das Objekt als auch auf den Hintergrund bezieht, die in dem Eingabebild IM enthalten sind. Die Tiefenmatrix DP kann durch den Vorprozessor 210 und einen Tiefengenerator (250 von 5) generiert werden, der unten noch mit Bezug auf 5 beschrieben wird. Zum Beispiel kann der Tiefengenerator 250 die Tiefenmatrix DP unter Verwendung der Parität eines von der Sensoreinheit 100 empfangenen Stereobildes generieren. Alternativ kann die Tiefenmatrix DP durch die Sensoreinheit 100 generiert werden, was unten noch mit Bezug auf 6 beschrieben wird. Zum Beispiel kann die Sensoreinheit 100 ein Stereobild ausgeben und auch die Tiefenmatrix DP auf der Grundlage des Stereobildes ausgeben.
Das Rol-Netz 220 kann auf der Grundlage des Eingabebildes IM eine Teilregion, die in dem Eingabebild IM enthalten ist, als eine Rol identifizieren und Rol-Informationen RID, die Daten über die Rol umfassen, ausgeben. Die RoI-Informationen RID können zum Beispiel 2D-Informationen der Rol (zum Beispiel eine Teilregion des Eingabebildes IM) und/oder 3D-Informationen der Rol (zum Beispiel Teildaten der Tiefenmatrix DP) umfassen. Zum Beispiel kann das Rol-Netz 220 einen Tiefenwert auf der Grundlage der Parität des Bildes für das linke Auge und des Bildes für das rechte Auge berechnen, wenn das Eingabebild IM ein Bild für das linke Auge und ein Bild für das rechte Auge umfasst. Das Rol-Netz 220 kann dann die Rol-Informationen RID ausgeben, die den Tiefenwert umfassen können. Als ein weiteres Beispiel kann das Rol-Netz 220 eine Rol aus dem Eingabebild IM auf der Grundlage der Tiefenmatrix DP identifizieren. Zum Beispiel kann das Rol-Netz 220 Elemente, die zum Fahren verwendet werden, anhand mehrerer Tiefenwerte, die in der Tiefenmatrix DP enthalten sind, identifizieren. Wenn zum Beispiel die elektronische Vorrichtung 3 in einem Fahrassistenzsystem enthalten ist, so kann das Rol-Netz 220 das Eingabebild IM und/oder die Tiefenmatrix DP analysieren, um als eine Rol eine Region zu identifizieren, die Informationen umfassen kann, die für das Fahren eines Fahrzeugs verwendet werden. Die Rol kann zum Beispiel eine Region sein, die eine Straße, auf der ein Fahrzeug fährt, ein anderes Fahrzeug, eine Ampel, einen Fußgängerübergang und dergleichen umfasst. Die Rol kann mehrere Regionen umfassen.
Der Maskengenerator 230 kann auf der Grundlage der Rol-Informationen RID und der Tiefenmatrix DP mehrere Elemente der Maskendaten MK mit verschiedenen durchschnittlichen Tiefen generieren und ausgeben. Der Maskengenerator 230 kann auf der Grundlage der Rol-Informationen RID mehrere Elemente der Maskendaten MK generieren und ausgeben, in denen eine Region, mit Ausnahme einer Rol, in einer Pyramidenbild PIM maskiert ist.
Maskendaten MK können Daten sein, mit denen eine Region, außer einer aussagekräftigen Region des Pyramidenbildes PIM, maskiert wird. Wenn zum Beispiel die Anzahl der Male des Abwärtssampelns zum Generieren eines Pyramidenbildes PIM kleiner wird, so kann die aussagekräftige Region eine Bildregion anzeigen, die eine größere Distanz darstellt. Wenn hingegen die Anzahl der Male des Abwärtssampelns zum Generieren eines Pyramidenbildes PIM größer wird, so kann die aussagekräftige Region eine Bildregion anzeigen, die eine geringere Distanz darstellt. Wenn zum Beispiel die Größe eines Pyramidenbildes PIM, auf das Maskendaten MK angewendet werden sollen, relativ groß ist, so können die Maskendaten MK Daten zum Maskieren einer Region von relativ geringer Distanz umfassen. Wenn hingegen die Größe eines Pyramidenbildes PIM, auf das Maskendaten MK angewendet werden sollen, relativ klein ist, so können die Maskendaten MK Daten zum Maskieren einer Region von relativ großer Distanz umfassen.
Der Maskengenerator 230 kann die Tiefenmatrix DP und die RoI-Informationen RID empfangen und mehrere Maskendaten MK gemäß den Tiefenwerten generieren. Der Maskengenerator 230 kann auf der Grundlage der Rol-Informationen RID eine in der Tiefenmatrix DP enthaltene Teilregion als eine Rol identifizieren und Maskendaten MK durch Ausschließen von Tiefenwerten der Rol generieren. Daher kann die Rol der Maskendaten MK aussagekräftige Tiefenwerte umfassen, und die Daten einer Region mit Ausnahme der Rol der Maskendaten MK können einen Nullwert oder einen ungültigen Wert umfassen.
Der Maskengenerator 230 kann die Rol in der Tiefenmatrix DP in mehrere Regionen unterteilen und Maskendaten MK, die jeder der mehreren Regionen umfasst, ausgeben. Zum Beispiel können die Maskendaten MK Tiefenwerte einer Teilregion der Rol in der Tiefenmatrix DP umfassen. Die Maskendaten MK werden unten unter Bezug auf 7 noch ausführlich beschrieben.
Die Maskierungseinheit 240 kann maskierte Bilder IMK, die verschiedene durchschnittliche Distanzen darstellen, auf der Grundlage der mehreren Pyramidenbilder PIM und der mehreren Maskendaten MK generieren und ausgeben. Eine durchschnittliche Distanz gibt einen Durchschnitt der Distanzen von der Sensoreinheit 100 zu einem realen Objekt an, die den in einem Bild dargestellten Pixeln entsprechen. Mit anderen Worten kann die Maskierungseinheit 240 die mehreren Elemente von Maskendaten MK jeweils auf die mehreren Pyramidenbilder PIM anwenden.
Ein maskiertes Bild IMK kann eine Teilregion des Eingabebildes IM oder eines Pyramidenbildes PIM darstellen. Zum Beispiel kann ein erstes maskiertes Bild (zum Beispiel IMK1 von 9) eine erste Region (zum Beispiel C1 von 9) umfassen, wobei die erste Region ein Abschnitt eines ersten Pyramidenbildes (zum Beispiel PIM1 von 9) ist. Zusätzlich kann das erste maskierte Bild ein zweites maskiertes Bild (zum Beispiel IMK2 von 9) umfassen, das eine zweite Region (zum Beispiel C2 von 9) umfassen kann, wobei die zweite Region ein Abschnitt eines zweiten Pyramidenbildes (zum Beispiel PIM2 von 9) ist. In diesem Fall können sich die Kontexte, die durch die erste Region C1 und die zweite Region C2 gebildet werden, voneinander unterscheiden. Zum Beispiel kann die erste Region C1 einen Fluchtpunkt und einen Endabschnitt einer Straße umfassen, während die zweite Region C2 einen Zwischenabschnitt der Straße und ein vorausfahrendes Fahrzeug umfassen kann. Der Bildkontext kann Informationen über eine durch ein Bild angezeigte Situation angeben. Zum Beispiel können Bilder, die zur selben Zeit aufgenommen wurden, denselben Kontext aufweisen.
Die Maskierungseinheit 240 kann eine verbleibende Region durch Ausschließen der ersten Region C1 in dem ersten Pyramidenbild PIM1 maskieren und eine verbleibende Region durch Ausschließen der zweiten Region C2 in dem zweiten Pyramidenbild PIM2 maskieren. Die Maskierungseinheit 240 kann ein maskiertes erstes Pyramidenbild (das heißt das erste maskierte Bild) und ein maskiertes zweites Pyramidenbild (das heißt das zweite maskierte Bild) ausgeben.
Die erste Region C1 und die zweite Region C2 umfassen Regionen verschiedener Distanzen, aber sie schließen einander nicht unbedingt aus. Zum Beispiel können die erste Region C1 und die zweite Region C2 eine überlappende Region umfassen. Zum Beispiel kann ein Teilbild (zum Beispiel ein bestimmter Abschnitt einer Straße), das in der ersten Region C1 enthalten ist, auch in der zweiten Region C2 enthalten sein. Zusätzlich kann mindestens ein Teil der mehreren Elemente von Maskendaten MK überlappende Regionen in Pyramidenbildern PIM maskieren. Wenn die erste Region C1 und die zweite Region C2 einander nicht überlappen, so kann ein teilweises Objekt, das in einem Pyramidenbild PIM enthalten ist, weggelassen werden. Um dieses Phänomen zu verhindern, kann die Maskierungseinheit 240 ein Pyramidenbild PIM so maskieren, dass ein Grenzabschnitt verschiedener Regionen überlappt wird.
Der Maskengenerator 230 kann Informationen, die ein erstes Pyramidenbild anzeigen, in einen Header-Abschnitt der ersten Maskendaten schreiben, dergestalt, dass die ersten Maskendaten auf ein erstes Pyramidenbild angewendet werden, wobei die erste Pyramide das größte Pyramidenbild ist. Daher kann die Maskierungseinheit 240 das erste Pyramidenbild unter Verwendung der ersten Maskendaten maskieren. Als ein weiteres Beispiel kann die Maskierungseinheit 240 identifizieren, dass die ersten Maskendaten eine Größe aufweisen, die dem ersten Pyramidenbild entspricht, und kann das erste Pyramidenbild unter Verwendung der ersten Maskendaten maskieren. Wenn zum Beispiel die Größe der ersten Maskendaten einer Größe einer Teilregion des ersten Pyramidenbildes entspricht, so kann die Maskierungseinheit 240 die ersten Maskendaten auf das erste Pyramidenbild anwenden.
Der Merkmalsextrahierer 300 kann die maskierten Bilder IMK empfangen und Merkmalsdaten (Feature Data) FD jedes maskierten Bildes IMK ausgeben. Die Merkmalsdaten FD können zum Beispiel eine Merkmalsmatrix (zum Beispiel FM3), die Klasse CL oder das Erkennungssignal REC, wie oben mit Bezug auf 3 beschrieben, sein. Die Merkmalsdaten FD können zum Beispiel verschiedene Formen von Daten umfassen, einschließlich eines Merkmals einer nichtmaskierten Region in dem Eingabebild IM oder einem Pyramidenbild PIM.
Der Merkmalsextrahierer 300 kann Merkmalswerte aus maskierten Bildern IMK extrahieren, die jeweils verschiedene Kontexte umfassen. Zum Beispiel kann das erste maskierte Bild einen Kontext einer weiten Distanz von einem Betrachter umfassen, wie zum Beispiel einen Fluchtpunkt. In diesem Fall kann der Bildprozessor 200 das Eingabebild IM eine relativ kleine Anzahl von Malen für ein weit entferntes Objekt abwärtssampeln, dergestalt, dass mehr Pixel enthalten sind, die sich auf das weit entfernte Objekt beziehen. Im Gegensatz dazu kann das zweite maskierte Bild einen Kontext einer geringen Distanz zu dem Betrachter umfassen. Im Interesse der Effizienz der rechnerischen Verarbeitung und der Effizienz des maschinellen Lernens kann der Bildprozessor 200 das Eingabebild IM eine relativ große Anzahl von Malen abwärtssampeln. Daher können die Datenmengen, die in dem ersten maskierten Bild und in dem zweiten maskierten Bild enthalten sind, innerhalb eines kleinen Fehlerbereichs ähnlich sein. Wenn das maschinelle Lernen unter Verwendung des ersten maskierten Bildes und des zweiten maskierten Bildes durchgeführt wird, kann somit die Effizienz des Lernens bei Verwendung eines im Wesentlichen gleich großen Kernels erhöht werden.
Der Detektor 510 kann die Merkmalsdaten FD empfangen und auf der Grundlage der Merkmalsdaten FD Informationen über das Objekt oder den Hintergrund identifizieren, die in dem Eingabebild IM enthalten sind. Zum Beispiel kann der Detektor 510 das in dem Eingabebild IM enthaltene Objekt (zum Beispiel ein anderes Fahrzeug) detektieren und verschiedene Informationselemente über das Objekt detektieren. Zu den verschiedenen Informationselementen können 3D-Informationen, die zum Beispiel einen 3D-Hüllkörper, eine Form des Objekts, eine Distanz zu dem Objekt, eine Position des Objekts usw. umfassen, sowie 2D-Informationen, die einen Rand, der das Objekt bildet, und dergleichen umfassen, gehören.
5 ist ein Blockdiagramm der elektronischen Vorrichtung 3 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Die elektronische Vorrichtung 3 kann die Sensoreinheit 100, den Bildprozessor 200, den Merkmalsextrahierer 300, einen Puffer 410 und den Detektor 510 umfassen, der Bildprozessor 200 kann des Weiteren den Vorprozessor 210, das Rol-Netz 220, den Maskengenerator 230, die Maskierungseinheit 240, einen Tiefengenerator 250 und eine Maskierungseinheit 260 umfassen, und der Merkmalsextrahierer 300 kann des Weiteren einen Bildmerkmalsextrahierer 310 und einen Tiefenmerkmalsextrahierer 320 umfassen. Die elektronische Vorrichtung 3 kann mindestens als eine Teilkonfiguration der elektronischen Vorrichtung 1, wie oben mit Bezug auf 1 und 2 beschrieben, enthalten sein. Im Folgenden wird eine Beschreibung, die oben mit Bezug auf 1 bis 4 gegeben wurde, weggelassen.
Der Bildprozessor 200 kann ein Eingabebild IM empfangen und ein maskiertes Bild IMK und/oder eine maskierte Tiefenmatrix DMK ausgeben. Die maskierte Tiefenmatrix DMK kann durch Maskieren einer Teilregion in einer Tiefenmatrix, die sich auf eine Frontsicht vor dem Fahrzeug bezieht, erhalten werden.
Der Vorprozessor 210 kann das Eingabebild IM empfangen, das Eingabebild IM abwärtssampeln und ein Pyramidenbild (Pyramid Image) PIM generieren und ausgeben. Zum Beispiel kann der Vorprozessor 210, der oben mit Bezug auf 4 beschrieben wurde, die Tiefenmatrix DP auf der Grundlage des Eingabebildes IM ausgeben, aber gemäß einer Ausführungsform des erfinderischen Konzepts kann der Vorprozessor 210 ein Pyramidenbild PIM auf der Grundlage des Eingabebildes IM generieren und ausgeben, ohne die Tiefenmatrix DP zu generieren und auszugeben.
Der Tiefengenerator 250 kann das Eingabebild IM empfangen und die Tiefenmatrix DP ausgeben. Der Vorprozessor 210 muss zum Beispiel die Tiefenmatrix DP nicht ausgeben. Der Tiefengenerator 250 kann die Tiefenmatrix DP ausgeben. Zum Beispiel kann der Tiefengenerator 250 die Tiefenmatrix DP an das Rol-Netz 220 und den Maskengenerator 230 übermitteln. Die Sensoreinheit 100 kann zum Beispiel eine Stereokamera sein. In diesem Fall kann das Eingabebild IM ein Bild für das linke Auge und ein Bild für das rechte Auge umfassen. Der Tiefengenerator 250 kann die Parität mit Hilfe des Bildes für das linke Auge und des Bildes für das rechte Auge detektieren und die Tiefenmatrix DP auf der Grundlage der detektierten Parität erfassen.
Der Tiefengenerator 250 kann auf der Grundlage des Eingabebildes IM mehrere Pyramidentiefenmatrizen (Pyramid Depthmaps) PDP ausgeben. Eine Beziehung zwischen der mehreren Pyramidentiefenmatrizen PDP und der Tiefenmatrix DP kann einer Beziehung zwischen den mehreren Pyramidenbildern PIM und dem Eingabebild IM ähneln. Zum Beispiel kann der Tiefengenerator 250 eine erste Pyramidentiefenmatrix durch Abwärtssampeln der horizontalen und der vertikalen Länge der Tiefenmatrix DP mit einer bestimmten Rate generieren und eine zweite Pyramidentiefenmatrix durch erneutes Abwärtssampeln der ersten Pyramidentiefenmatrix mit einer bestimmten Rate generieren. Als ein weiteres Beispiel kann die erste Pyramidentiefenmatrix durch einmaliges Abwärtssampeln der Tiefenmatrix DP generiert werden. Die zweite Pyramidentiefenmatrix kann durch zweimaliges Abwärtssampeln der Tiefenmatrix DP generiert werden. Zum Beispiel kann der Tiefengenerator 250 die mehreren Pyramidentiefenmatrizen PDP mit allmählich reduzierten Größen im Vergleich zu der Tiefenmatrix DP generieren.
Der Maskengenerator 230 kann mehrere Elemente von Maskendaten MK an die Maskierungseinheit 240 und die Maskierungseinheit 260 auf der Grundlage der Tiefenmatrix DP und der Rol-Informationen RID übermitteln.
Die Maskierungseinheit 240 kann maskierte Bilder IMK anhand der mehreren Pyramidenbilder PIM und der mehreren Maskendaten MK ausgeben. Die Maskierungseinheit 260 kann maskierte Tiefenmatrizen DMK anhand der mehreren Pyramidentiefenmatrizen PDP und der mehreren Maskendaten MK ausgeben.
Eine maskierte Tiefenmatrix DMK kann eine Teilregion der Tiefenmatrix DP oder einer Pyramidentiefenmatrix PDP darstellen. Zum Beispiel kann eine erste maskierte Tiefenmatrix eine erste Region umfassen, wobei die erste Region ein Abschnitt einer ersten Pyramidentiefenmatrix ist. Zusätzlich kann die erste maskierte Tiefenmatrix eine zweite maskierte Tiefenmatrix umfassen, die eine zweite Region umfassen kann, wobei die zweite Region ein Abschnitt einer zweiten Pyramidentiefenmatrix ist. In diesem Fall können sich die Kontexte, die durch die erste Region und die zweite Region gebildet werden, voneinander unterscheiden.
Der Merkmalsextrahierer 300 kann Bildmerkmalsdaten IF auf der Grundlage der maskierten Bilder IMK ausgeben und kann Tiefenmerkmalsdaten DF auf der Grundlage der maskierten Tiefenmatrizen DMK ausgeben. Die Bildmerkmalsdaten IF und die Tiefenmerkmalsdaten DF können zum Beispiel eine Merkmalsmatrix (zum Beispiel FM3), die Klasse CL oder das Erkennungssignal REC, wie oben mit Bezug auf 3 beschrieben, sein. Zum Beispiel kann der Bildmerkmalsextrahierer 310 Merkmalswerte der maskierten Bilder IMK extrahieren und die Bildmerkmalsdaten IF auf der Grundlage der extrahierten Merkmalswerte an den Puffer 410 übermitteln. Ebenso kann der Tiefenmerkmalsextrahierer 320 Merkmalswerte der maskierten Tiefenmatrizen DMK extrahieren und die Tiefenmerkmalsdaten DF auf der Grundlage der extrahierten Merkmalswerte an den Puffer 410 übermitteln.
Der Puffer 410 kann die Bildmerkmalsdaten IF und die Tiefenmerkmalsdaten DF empfangen, eine Verkettung auf der Grundlage der Bildmerkmalsdaten IF und der Tiefenmerkmalsdaten DF durchführen und verkettete Daten (Concatenated Data) CD ausgeben. Zum Beispiel kann der Puffer 410 die Bildmerkmalsdaten IF und die Tiefenmerkmalsdaten DF zu einem einzigen Merkmalsdatenelement verketten. Als ein weiteres Beispiel kann der Puffer 410 das verkettete einzelne Element von Merkmalsdaten und die abwärtsgesampelten Merkmalsdaten (IF_2D von 12) verketten, was unten noch einmal mit Bezug auf 12 beschrieben wird. Zum Beispiel können die verketteten Daten CD Daten in einer Form sein, in der verschiedene Elemente von Merkmalsdaten verkettet sind.
Der Detektor 510 kann die verketteten Daten CD empfangen, Merkmalswerte der verketteten Daten CD analysieren und ein Objekt (zum Beispiel ein anderes Fahrzeug oder dergleichen), das in dem Eingabebild IM enthalten ist, detektieren. Zum Beispiel kann der Detektor 510 verschiedene Aktivierungsschichten (zum Beispiel ReLU (Rectified Linear Unit)) umfassen, die in einem Modell eines künstlichen neuronalen Netzes implementiert werden können. Als ein weiteres Beispiel kann der Detektor 510 verschiedene Objekterkennungsmodelle umfassen, die ein Objekt auf der Grundlage der Merkmalswerte der verketteten Daten CD erkennen können.
6 ist ein Blockdiagramm der elektronischen Vorrichtung 3 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Wie in 6 gezeigt, kann die elektronische Vorrichtung 3 die Sensoreinheit 100, den Bildprozessor 200, den Merkmalsextrahierer 300, den Puffer 410 und den Detektor 510 umfassen, und der Bildprozessor 200 kann des Weiteren den Vorprozessor 210, das Rol-Netz 220, den Maskengenerator 230 und die Maskierungseinheit 240 umfassen. Der Merkmalsextrahierer 300 kann zusätzlich den Bildmerkmalsextrahierer 310 umfassen. Im Folgenden wird eine Beschreibung, die oben mit Bezug auf 4 bis 5 gegeben wurde, weggelassen.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die Sensoreinheit 100 einen Distanzsensor umfassen, der direkt 3D-Informationen erfassen kann. Der Distanzsensor kann zum Beispiel Distanzinformationen detektieren, einen Tiefenwert erfassen und durch einen LIDAR-, RADAR- oder ToF-Sensor oder dergleichen implementiert werden. Zusätzlich kann die Sensoreinheit 100 einen Bildsensor umfassen, der in der Lage ist, ein 2D-Bild aufzunehmen. Die Sensoreinheit 100 kann ein Eingabebild IM ausgeben, wobei das Eingabebild IM ein 2D-Bild und/oder eine Tiefenmatrix DP, die Tiefenwerte umfasst, ist.
Das Rol-Netz 220 kann mindestens einige der Regionen in der Tiefenmatrix DP als Rols identifizieren. Zum Beispiel kann das Rol-Netz 220 als eine Rol eine Region identifizieren, die Elemente (zum Beispiel ein vorausfahrendes Fahrzeug, eine Straße oder einen Fußgänger) umfasst, die zum Führen eines Fahrzeugs verwendet werden. Zum Beispiel kann das Rol-Netz 220 mehrere Tiefenwerte analysieren, die in der Tiefenmatrix DP enthalten sind, und als eine Rol eine Region identifizieren, die Tiefenwerte umfasst, die als ein vorausfahrendes Fahrzeug identifiziert wurden.
Der Maskengenerator 230 kann Maskendaten MK auf der Grundlage von RoI-Informationen RID ausgeben, welche die Tiefenwerte der Rol umfassen. Die Maskendaten MK werden unten unter Bezug auf 7 noch ausführlich beschrieben.
Der Puffer 410 kann Bildmerkmalsdaten IF empfangen und verkettete Daten CD ausgeben. Zum Beispiel können die Bildmerkmalsdaten IF Merkmalswerte mehrerer maskierter Bilder IMK umfassen, die gemäß Distanzen maskiert sind. Die Bildmerkmalsdaten IF können zum Beispiel erste Bildmerkmalsdaten und zweite Bildmerkmalsdaten umfassen. Die ersten Bildmerkmalsdaten können Merkmalswerte umfassen, die Objekte von relativ geringen Distanzen darstellen. Die zweiten Bildmerkmalsdaten können Merkmalswerte umfassen, die Objekte von relativ weiten Distanzen darstellen. Der Puffer 410 kann die ersten Bildmerkmalsdaten und die zweiten Bildmerkmalsdaten verketten und die verketteten Daten CD an den Detektor 510 ausgeben. Der Detektor 510 kann das in dem Eingabebild IM enthaltene Objekt auf der Grundlage der verketteten Daten CD identifizieren.
7 und 8 veranschaulichen Rol-Informationen und Maskendaten gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6.
Wie in den 7 und 8 zu sehen, kann das Rol-Netz 220 Rol-Informationen RID auf der Grundlage eines Eingabebildes IM und/oder einer Tiefenmatrix DP generieren. Wie oben beschrieben, kann die Tiefenmatrix DP durch den Vorprozessor 210, die Sensoreinheit 100 oder den Tiefengenerator 250 erfasst werden. Zum Beispiel können die RoI-Informationen RID Tiefenwerte der Tiefenmatrix DP umfassen. Insbesondere können die RoI-Informationen RID Tiefenwerte einer Rol RI umfassen. Wie in den 7 und 8 gezeigt, können die Rol-Informationen RID jeweilige Tiefenwerte eines dritten Fahrzeugs V3, das der Sensoreinheit 100 am nächsten liegt, eines zweiten Fahrzeugs V2, das weiter entfernt ist als das dritte Fahrzeug V3, und eines ersten Fahrzeugs V1, das weiter entfernt ist als das zweite Fahrzeug V2, umfassen. Zusätzlich können die Rol-Informationen RID Tiefenwerte einer Straße umfassen.
Der Maskengenerator 230 kann mehrere Maskendatenelemente, zum Beispiel erste bis vierte Maskendaten MK1 bis MK4, auf der Grundlage der RoI-Informationen RID generieren. Der Maskengenerator 230 kann die Rol-Informationen RID für jede spezielle Tiefensektion unterteilen und auf der Grundlage der unterteilten Rol-Informationen RID mehrere Maskendaten MK1 bis MK4 generieren.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann ein Durchschnitt von Tiefenwerten, die in ersten Maskendaten MK1 enthalten sind, größer sein als ein Durchschnitt von Tiefenwerten, die in zweiten Maskendaten MK2 enthalten sind. Als ein weiteres Beispiel können die Tiefenwerte, die in den ersten Maskendaten MK1 enthalten sind, größer sein als die Tiefenwerte, die in den zweiten Maskendaten MK2 enthalten sind. Als ein weiteres Beispiel können einige Tiefenwerte, die in den ersten Maskendaten MK1 enthalten sind, größer sein als die Tiefenwerte, die in den zweiten Maskendaten MK2 enthalten sind.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts können die ersten Maskendaten MK1 ein Objekt (zum Beispiel einen Fluchtpunkt oder den Horizont) umfassen, das am weitesten von der Sensoreinheit 100 entfernt ist. Die zweiten Maskendaten MK2 können ein Objekt (zum Beispiel das erste Fahrzeug V1) umfassen, das näher liegt als das in den ersten Maskendaten MK1 enthaltene Objekt. Dritte Maskendaten MK3 können ein Objekt (zum Beispiel das zweite Fahrzeug V2) umfassen, das näher liegt als das in den zweiten Maskendaten MK2 enthaltene Objekt. Vierte Maskendaten MK4 können ein Objekt (zum Beispiel das dritte Fahrzeug V3) umfassen, das näher liegt als das in den dritten Maskendaten MK3 enthaltene Objekt.
Wie in 8 gezeigt, kann das Rol-Netz 220 RoI-Informationen RID generieren, die Tiefenwerte von Fahrzeugen und Tiefenwerte einer Straße umfassen oder Bildinformationen der Fahrzeuge und der Straße umfassen. Der Maskengenerator 230 kann die ersten Maskendaten MK1 so generieren, dass sie keinen Tiefenwert umfassen, der größer als ein Tiefenschwellenwert ist. Mit anderen Worten kann der Maskengenerator 230 die Maskendaten MK2 bis Mk4 mit Ausnahme der ersten Maskendaten MK1 bereitstellen. In einigen Fällen muss eine Frontsicht vor dem Fahrzeug, die durch die Sensoreinheit 100 aufgenommen wird, keinen Fluchtpunkt umfassen. Wie zum Beispiel in 8 gezeigt, können sich Gebäude in einer bestimmten Distanz von der Sensoreinheit 100 befinden. Daher gibt es in einigen Fällen keine Bild- oder Distanzinformationen einer Distanz, die größer als die bestimmte Distanz ist. Daher generiert der Maskengenerator 230 möglicherweise nicht die ersten Maskendaten MK1.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann der Maskengenerator 230 auf der Grundlage der Rol-Informationen RID Randinformationen generieren, die einigen Regionen des Eingabebildes IM entsprechen. Die mehreren Elemente von Maskendaten MK1 bis MK4 umfassen möglicherweise keine Tiefenwerte und umfassen die Randinformationen. Zum Beispiel können die Randinformationen Grenzinformationen anzeigen, die durch einen Umriss (gestrichelte Linie) der in den 7 und 8 gezeigten Maskendaten MK1 bis MK4 dargestellt werden. Die Maskierungseinheit 240 kann die Maskendaten MK1 bis MK4, welche die Randinformationen umfassen, auf Pyramidenbilder PID anwenden und maskierte Bilder IMK generieren. Das Generieren der maskierten Bilder IMK wird weiter unten ausführlich mit Bezug auf 9 beschrieben.
9 veranschaulicht eine Operation des Maskierens von Pyramidenbildern und des Generierens maskierter Bilder gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die Maskierungseinheit 240 die ersten bis vierten Maskendaten MK1 bis MK4 jeweils auf die ersten bis vierten Pyramidenbilder PIM1 bis PIM4 anwenden. Die Maskierungseinheit 240 kann Teilregionen der ersten bis vierten Pyramidenbilder PIM1 bis PIM4 jeweils auf der Grundlage der ersten bis vierten Maskendaten MK1 bis MK4 maskieren. In diesem Fall können die Kontexte, die in den ersten bis vierten Pyramidenbildern PIM1 bis PIM4 enthalten sind, im Wesentlichen die gleichen sein. Daher können sich die Größen der ersten bis vierten Pyramidenbilder PIM1 bis PIM4 voneinander unterscheiden. Die Maskierungseinheit 240 kann erste bis vierte maskierte Bilder IMK1 bis IMK4 generieren, in denen jeweils die ersten bis vierten Pyramidenbilder PIM1 bis PIM4 maskiert sind. Die ersten bis vierten maskierten Bilder IMK1 bis IMK4 können verschiedene Kontexte anzeigen. Zum Beispiel kann das erste maskierte Bild IMK1 einen Kontext der weitesten Distanz umfassen. Zusätzlich kann das vierte maskierte Bild IMK4 einen Kontext der kürzesten Distanz umfassen. Die ersten bis vierten Maskendaten MK1 bis MK4 können Randinformationen umfassen. Die Maskierungseinheit 240 kann Teilregionen der ersten bis vierten Pyramidenbilder PIM1 bis PIM4 darstellen und die übrigen Regionen maskieren. Zum Beispiel kann die Maskierungseinheit 240 das erste maskierte Bild IMK1, das einen Kontext innerhalb eines Randes umfasst, auf der Grundlage von Randinformationen generieren, die in den ersten Maskendaten MK1 enthalten sind.
Das erste maskierte Bild IMK1 umfasst eine erste Region C1, wobei die erste Region C1 ein Abschnitt des ersten Pyramidenbildes PIM1 ist. Das zweite maskierte Bild IMK2 umfasst eine zweite Region C2, wobei die zweite Region C2 ein Abschnitt des zweiten Pyramidenbildes PIM2 ist. Das dritte maskierte Bild IMK3 umfasst eine dritte Region C3, wobei die dritte Region C3 ein Abschnitt des dritten Pyramidenbildes PIM3 ist. Das vierte maskierte Bild IMK4 umfasst eine vierte Region C4, wobei die vierte Region C4 ein Abschnitt des vierten Pyramidenbildes PIM4 ist. Jede der mehreren Regionen C1 bis C4 kann eine Teilregion eines Pyramidenbildes PIM sein, die nicht durch die mehreren Elemente von Maskendaten MK1 bis MK4 maskiert ist.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann der Merkmalsextrahierer 300 einen Merkmalswert der ersten Region C1 aus dem ersten Parameterbild PIM1 extrahieren und eine Merkmalsextraktionsoperation für die verbleibende Region überspringen. Zum Beispiel kann das erste maskierte Bild IMK1 ein Bild sein, das die erste Region C1 des ersten Parameterbildes PIM1 darstellt. Der Merkmalsextrahierer 300 kann ein Merkmal in der ersten Region C1 extrahieren und eine Operation des Extrahierens eines Merkmals aus der verbleibenden Region des ersten Parameterbildes PIM1 überspringen, selbst wenn Daten der verbleibenden Region vorhanden sind.
Somit kann gemäß einer Ausführungsform des erfinderischen Konzepts ein Verfahren zur Bildverarbeitung umfassen: Empfangen von Eingangsdaten, die Bilddaten und Distanzdaten, die den Bilddaten entsprechen, umfassen; Generieren mehrerer abwärtsgesampelter Bilder (zum Beispiel Pyramidenbilder PIM bis PIM4) auf der Grundlage der Bilddaten, wobei jedes der mehreren abwärtsgesampelter Bilder einer anderen Bildauflösung entspricht; Generieren mehrerer Bildmasken (zum Beispiel Maskendaten MK1 bis MK4) auf der Grundlage der Distanzdaten, wobei jede der mehreren Bildmasken einem anderen durchschnittlichen Distanzwert entspricht; Generieren mehrerer maskierter Bilder (zum Beispiel maskierte Bilder IMK1 bis IMK4), wobei jedes der mehreren maskierten Bilder auf einem der mehreren abwärtsgesampelten Bilder und einer der mehreren Bildmasken basiert; Generieren von Merkmalsdaten auf der Grundlage der mehreren maskierten Bilder; und Detektieren eines Objekts auf der Grundlage der Merkmalsdaten.
Zum Beispiel kann das Verfahren eine Rol identifizieren, die eine Straße umfasst, auf der ein Fahrzeug fährt, und das detektierte Objekt kann ein anderes Fahrzeug sein, das auf der Straße fährt. durch Abwärtssampeln der Bilddaten können höhere Auflösungen für Regionen verwendet werden, in denen die höhere Auflösung die Objektdetektion verbessern kann (zum Beispiel bei größeren Distanzen in der Rol), und eine geringere Auflösung kann zum Identifizieren näher liegender Objekte in der Rol verwendet werden. Dies kann die Rechenleistung verringern, die zur Erreichung des gewünschten Niveaus einer Echtzeit-Objektdetektion erforderlich ist.
10A, 10B und 10C veranschaulichen eine Bildverarbeitungsoperation eines Vorprozessors gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6.
Wie in den 10A, 10B und 10C gezeigt, kann die Sensoreinheit 100 eine Frontsicht vor dem Fahrzeug fotografieren und ein Eingabebild IM ausgeben. Das Eingabebild IM kann ein erstes Eingabebild IMa und ein zweites Eingabebild 1Mb umfassen. Das erste und das zweite Eingabebild IMa und 1Mb können durch Fotografieren verschiedener Frontsichten vor dem Fahrzeug erhalten werden. Zum Beispiel kann die Sensoreinheit 100 eine Frontsicht vor dem Fahrzeug fotografieren, die einen Fluchtpunkt umfasst. Die Sensoreinheit 100 kann auch das erste Eingabebild IMa generieren. Die Sensoreinheit 100 kann eine Frontsicht vor dem Fahrzeug fotografieren, die keinen Fluchtpunkt umfasst, und das zweite Eingabebild IMb generieren. Der Himmel in dem ersten Eingabebild IMa und die Gebäude in dem zweiten Eingabebild 1Mb müssen keine Elemente sein, die zum Führen eines Fahrzeugs verwendet werden. Daher kann das Rol-Netz 220 das zweite Eingabebild IMb empfangen, Daten einer Nicht-RoI-Region (zum Beispiel einer Region mit Gebäuden) löschen und ein korrigiertes Bild IMc generieren. Als ein weiteres Beispiel kann das Rol-Netz 220 das erste Eingabebild IMa empfangen, Daten einer Nicht-RoI-Region (zum Beispiel einer Region, die den Himmel enthält) löschen und ein weiteres korrigiertes Bild IMc generieren. In diesem Fall kann ein Rechenaufwand der elektronischen Vorrichtung 3, die für die Bildverarbeitung verwendet wird, reduziert werden. Zusätzlich kann die elektronische Vorrichtung 3 Objekte, die zum Fahren verwendet werden, präzise identifizieren und im Voraus eine Identifizierung unnötiger Objekte verhindem (zum Beispiel die Gebäude in dem zweiten Eingabebild IMb), wodurch für Fahrstabilität gesorgt wird.
11A und 11B sind Blockdiagramme zum Beschreiben eines Merkmalsextrahierers und einer Kerneinheit gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6 und 9.
Wie in 11A gezeigt, kann die elektronische Vorrichtung 3 eine Kerneinheit (Core Unit) CR umfassen, und die Kerneinheit CR kann mehrere Kerne umfassen, wie zum Beispiel erste bis vierte Kerne CR1 bis CR4. Die mehreren Kerne CR1 bis CR4 können jeweils erste bis vierte Teilmerkmalsextrahierer 301 bis 304 umfassen. Zusätzlich kann die Kerneinheit CR den Detektor 510 umfassen. Die ersten bis vierten Teilmerkmalsextrahierer 301 bis 304 können in dem Merkmalsextrahierer 300 enthalten sein, der oben mit Bezug auf 4 bis 6 beschrieben wurde. Zum Beispiel kann jeder der mehreren Kerne CR1 bis CR4 in einer Rechenverarbeitungseinheit wie zum Beispiel einer CPU oder einer NPU enthalten sein. Die Kerneinheit CR kann eine Einheitsgruppe sein, die mehrere Kerne umfasst. Zum Beispiel kann jeder der mehreren Kerne CR1 bis CR4 eine arithmetische Operation unter Verwendung eines künstlichen neuronalen Netzes ausführen. Zusätzlich können jeder der ersten bis vierten Teilmerkmalsextrahierer 301 bis 304 und der Detektor 510 ein Algorithmus sein, der durch die Kerneinheit CR ausgeführt wird.
Die ersten bis vierten Teilmerkmalsextrahierer 301 bis 304 können jeweils Merkmalsdaten FD mehrerer maskierten Bilder IMK ausgeben. Zum Beispiel kann der erste Teilmerkmalsextrahierer 301 erste Merkmalsdaten FD1 auf der Grundlage des ersten maskierten Bild IMK1 generieren und ausgeben. Zusätzlich kann der zweite Teilmerkmalsextrahierer 302 zweite Merkmalsdaten FD2 auf der Grundlage des zweiten maskierten Bild IMK2 generieren und ausgeben. Der dritte und der vierte Teilmerkmalsextrahierer 303 und 304 können auch dritte Merkmalsdaten FD3 bzw. vierte Merkmalsdaten FD4 in einer ähnlichen Weise wie der erste Teilmerkmalsextrahierer 301 generieren und ausgeben.
Das erste und das zweite maskierte Bild IMK1 und IMK2 können auf Teilregionen des Eingabebildes IM basieren. Zum Beispiel kann das erste maskierte Bild IMK1 ein Bild sein, das durch Maskieren, durch die ersten Maskendaten MK1, einer verbleibenden Region durch Ausschließen der ersten Region C1 aus dem ersten Pyramidenbild PIM 1 erhalten wird. Das erste Pyramidenbild PIM1 kann durch Abwärtssampeln des Eingabebildes IM erhalten werden. Zusätzlich kann das zweite maskierte Bild IMK2 ein Bild sein, das durch Maskieren der verbleibenden Region durch Ausschließen der zweiten Region C2 aus dem zweiten Pyramidenbild PIM2 erhalten wird. Das Maskieren kann durch die zweiten Maskendaten MK2 ausgeführt werden. Das zweite Pyramidenbild PIM2 kann durch Abwärtssampeln des ersten Pyramidenbildes PIM1 oder des Eingabebildes IM erhalten werden. Daher können die ersten Merkmalsdaten FD1 Merkmalswerte der ersten Region C1 umfassen, und die zweiten Merkmalsdaten FD2 können Merkmalswerte der zweiten Region C2 umfassen.
Wie oben beschrieben, kann der erste Teilmerkmalsextrahierer 301 die ersten Merkmalsdaten FD1, welche die Merkmalswerte der ersten Region C1 umfassen, an den Detektor 510 ausgeben. Der zweite Teilmerkmalsextrahierer 302 kann die zweiten Merkmalsdaten FD2, welche die Merkmalswerte der zweiten Region C2 umfassen, an den Detektor 510 ausgeben. Die erste Region C1 und die zweite Region C2 können jeweils Merkmalswerte eines Bildes umfassen, das mit verschiedenen Kontexten aufgenommen wurde. Der erste und der zweite Kern CR1 und CR2 können die Merkmalswerte der verschiedenen Kontexte jeweils in einer verteilten Weise verarbeiten.
Wie in 11B zu sehen, muss der erste Kern CR1 das erste maskierte Bild IMK1 nicht empfangen. Zum Beispiel muss, wie oben unter Bezug auf 8 beschrieben, der Maskengenerator 230 die ersten Maskendaten MK1 nicht generieren. Infolgedessen muss die Maskeneinheit 240 das erste maskierte Bild IMK1 nicht ausgeben, wobei das erste maskierte Bild IMK1 ein Bild ist, das eine Bildregion umfasst, die weiter als eine bestimmte Distanz entfernt ist. Zum Beispiel kann die Bildregion, die weiter als eine bestimmte Distanz entfernt ist, die erste Region C1 sein. Zum Beispiel kann die erste Region C1 einen Fluchtpunkt umfassen. Als ein weiteres Beispiel kann die erste Region C1 das am weitesten entfernte Objekt in einer Frontsicht vor dem Fahrzeug umfassen.
Zusätzlich können der erste und der zweite Kern CR1 und CR2 den zweiten Teilmerkmalsextrahierer 302 gemeinsam nutzen. Der zweite Teilmerkmalsextrahierer 302 kann die zweiten Merkmalsdaten FD2 an den Detektor 510 ausgeben, der durch den ersten Kern CR1 angesteuert wird. Infolgedessen kann der erste Kern CR1 ein Objekt, das in dem zweiten maskierten Bild IMK2 enthalten ist, auf der Grundlage der zweiten Merkmalsdaten FD2 detektieren, wobei die zweiten Merkmalsdaten über das zweite maskierte Bild IMK2 sind.
12 ist ein Blockdiagramm der elektronischen Vorrichtung 3 gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6.
Wie in 12 zu sehen, kann die elektronische Vorrichtung 3 den Merkmalsextrahierer 300, mehrere Puffer, mehrere Abwärtssampler, den Detektor 510 und eine Zusammenführungseinheit 600 umfassen. Ein Beispiel für mehrere Puffer können der erste und der zweite Puffer 411 und 412 sein. Ein Beispiel für mehrere Abwärtssampler können des Weiteren der erste und der zweite Abwärtssampler 421 und 422 sein. Der Merkmalsextrahierer 300 kann des Weiteren mehrere Bildextrahierer und mehrere Tiefenmerkmalsextrahierer umfassen. Ein Beispiel für mehrere Bildextrahierer können der erste und der zweite Bildmerkmalsextrahierer 311 und 312 sein. Ein Beispiel für mehrere Tiefenmerkmalsextrahierer können des Weiteren der erste und der zweite Tiefenmerkmalsextrahierer 321 und 322 sein. Der Detektor 510 kann des Weiteren mehrere Sub-Detektoren umfassen, wie zum Beispiel der erste und der zweite Sub-Detektor 511 und 512. Die ersten Merkmalsdaten FD1 können erste Bildmerkmalsdaten IF_1 und erste Tiefenmerkmalsdaten DF_1 umfassen. Die zweiten Merkmalsdaten FD2 können zweite Bildmerkmalsdaten IF_2 und zweite Tiefenmerkmalsdaten DF_2 umfassen.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann der erste Bildmerkmalsextrahierer 311 die ersten Bildmerkmalsdaten IF_1 des ersten maskierten Bildes IMK1 ausgeben. Der zweite Bildmerkmalsextrahierer 312 kann die zweiten Bildmerkmalsdaten IF_2 des zweiten maskierten Bildes IMK2 ausgeben.
Der erste Abwärtssampler 421 kann die zweiten Bildmerkmalsdaten IF_2 gemäß einer bestimmten Rate oder einem bestimmten Wert abwärtssampeln. Der erste Abwärtssampler 421 kann dann die ersten abwärtsgesampelten Merkmalsdaten IF_2D ausgeben. Der erste Puffer 411 kann erste verkettete Daten CD1 ausgeben, indem er die ersten Merkmalsdaten FD1 und die ersten abwärtsgesampelten Merkmalsdaten IF_2D verkettet.
Der erste Sub-Detektor 511 kann die ersten verketteten Daten CD1 auf der Grundlage der ersten Merkmalsdaten FD 1 erhalten. Der zweite Sub-Detektor 512 kann die zweiten verketteten Daten CD 1 auf der Grundlage der zweiten Merkmalsdaten FD2 erhalten. Der erste Sub-Detektor 511 und der zweite Sub-Detektor 512 können die Detektionsdaten IC1 und IC2 an die Zusammenführungseinheit 600 ausgeben.
Die Zusammenführungseinheit 600 kann Informationen über ein Objekt auf der Grundlage der Detektionsdaten IC1 und IC2 identifizieren. Da Teilregionen mehrerer Elemente von Maskendaten MK einander überlappen, kann ein in den Teilregionen enthaltenes Objekt wiederholt aus mehreren maskierten Bilder IMK detektiert werden. Die Detektionsdaten IC1 und IC2 können Informationen über ein wiederholt detektiertes Objekt umfassen. Infolgedessen kann die Zusammenführungseinheit 600 einen Abschnitt der Daten über das wiederholt detektierte Objekt entfernen und dann die Detektionsdaten IC1 und IC2 zusammenführen. Die Zusammenführungseinheit 600 kann Informationen über ein Objekt identifizieren, indem sie die Detektionsdaten IC1 und IC2 zusammenführt.
13 ist ein Blockdiagramm einer elektronischen Vorrichtung 3 zum Beschreiben einer Sensorfusionierungsoperation gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Wie in 13 gezeigt, kann die elektronische Vorrichtung 3 den Detektor 510, eine zweite Sensoreinheit 520, eine Sensorfusionierungseinheit 530 und die Zusammenführungseinheit 600 umfassen. Der Detektor 510 kann darüber hinaus mehrere Sub-Detektoren umfassen, wie zum Beispiel die ersten bis vierten Sub-Detektoren 511 bis 514. Die zweite Sensoreinheit 520 kann des Weiteren mehrere Distanzsensoren umfassen, wie zum Beispiel die ersten bis vierten Distanzsensoren 521 bis 524. Die Sensorfusionierungseinheit 530 kann des Weiteren mehrere Sensorfusionierungseinheiten umfassen, wie zum Beispiel erste bis vierte Sensorfusionierungseinheiten 531 bis 534.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann der Detektor 510 mehrere Detektionsdaten ausgeben, zum Beispiel die ersten bis vierten Detektionsdaten IC1 bis IC4. Die mehreren Distanzsensoren 521 bis 524 können mehrere Elemente von Abtastdaten ausgeben, zum Beispiel jeweils erste bis vierte Abtastdaten SD1 bis SD4. Der erste Distanzsensor 521 kann eine längere effektive Abtastdistanz aufweisen als der zweite Distanzsensor 522. Zum Beispiel kann der erste Distanzsensor 521 ein RADAR-Sensor mit großer Reichweite sein, und der zweite Distanzsensor 522 kann ein RADAR-Sensor mit geringer Reichweite sein. Der zweite Distanzsensor 522 kann eine längere effektive Abtastdistanz aufwiesen als der dritte Distanzsensor 523. Zum Beispiel kann der dritte Distanzsensor 523 ein LIDAR-Sensor sein. Der dritte Distanzsensor 523 kann eine längere effektive Abtastdistanz aufweisen als der vierte Distanzsensor 524. Zum Beispiel kann der vierte Distanzsensor 524 ein ToF-Sensor sein.
Die erste Sensorfusionierungseinheit 531 kann die ersten Detektionsdaten IC1, die ersten Abtastdaten SD1 und die zweiten Abtastdaten SD2 fusionieren. Die ersten Detektionsdaten IC1 können durch den ersten Sub-Detektor 511 detektiert werden. Die ersten Abtastdaten SD1 können von dem ersten Distanzsensor 521 ausgegeben werden. Die zweiten Abtastdaten SD2 können von dem zweiten Distanzsensor 522 ausgegeben werden. Zum Beispiel können Tiefeninformationen, die in den ersten Detektionsdaten IC1 nicht ausreichend sind, durch die ersten Detektionsdaten SD1 und die zweiten Detektionsdaten SD2 ergänzt werden. Daher kann die elektronische Vorrichtung 3 ein Objekt präzise identifizieren. Die Sensorfusionierungseinheit 530 kann auf der Grundlage der fusionierten Daten mehrere Elemente von fusionierten Daten SF1 bis SF4 ausgeben. Die zweite Sensorfusionierungseinheit 532 und die dritte Sensorfusionierungseinheit 533 ähneln der obigen Beschreibung. Daher wird auf ihre Beschreibung verzichtet.
Die vierte Sensorfusionierungseinheit 534 kann die vierten Detektionsdaten IC4, die durch den vierten Sub-Detektor 514 detektiert werden, und die vierten Abtastdaten SD4, die von dem vierten Distanzsensor 524 ausgegeben werden, fusionieren. Im Gegensatz zu der ersten Sensorfusionierungseinheit 531 kann die vierte Sensorfusionierungseinheit 534 die von einem einzelnen Distanzsensor (zum Beispiel dem vierten Distanzsensor 524) ausgegebenen Distanzinformationen verwenden. Die Sensorfusionierungseinheit 530 kann zum Beispiel Abtastdaten, die von mindestens einem Distanzsensor ausgegeben werden, und Detektionsdaten fusionieren.
Die ersten Detektionsdaten IC1 können auf der Grundlage eines Bildes generiert werden, das ein Objekt von einer größeren Distanz umfasst als die Distanz der zweiten Detektionsdaten IC2. Zum Beispiel können die ersten Detektionsdaten IC1 auf Merkmalswerten basieren, die aus dem ersten maskierten Bild IMK1 extrahiert wurden. Die zweiten Detektionsdaten IC2 können auf Merkmalswerten basieren, die aus dem zweiten maskierten Bild IMK2 extrahiert wurden. Wie oben beschrieben, kann das erste maskierte Bild IMK1 ein Objekt einer relativ größeren Distanz enthalten als die des zweiten maskierten Bildes IMK2.
Die Zusammenführungseinheit 600 kann verschiedene Elemente von Informationen über ein Objekt (zum Beispiel ein anderes Fahrzeug), die in dem Eingabebild IM enthalten sind, anhand der mehreren Elemente von Fusionierungsdaten SF1 bis SF4 erfassen. Zu dem Beispiel kann die Fusionierungseinheit 600 Informationen über 3D-Informationen des Objekts, eine Distanz zu dem Objekt, eine Geschwindigkeit, eine Art des Objekts und dergleichen erfassen. Die Zusammenführungseinheit 600 kann die erfassten Informationen an die interne oder externe Komponente der elektronischen Vorrichtung 3 übermitteln.
Die Zusammenführungseinheit 600 kann Informationen über das Objekt auf der Grundlage der mehreren Elemente von Fusionierungsdaten SF1 bis SF4 identifizieren. Da Teilregionen mehrerer Elemente von Maskendaten MK einander überlappen, kann ein in den Teilregionen enthaltenes Objekt wiederholt aus mehreren maskierten Bilder IMK detektiert werden. Die ersten bis vierten Detektionsdaten IC1 bis IC4 können Informationen über das wiederholt detektierte Objekt umfassen. Die mehreren Elemente von Fusionierungsdaten SF1 bis SF4 können auf der Grundlage der ersten bis vierten Detektionsdaten IC1 bis IC4 generiert werden. Infolgedessen kann die Zusammenführungseinheit 600 einen Abschnitt der Daten über das wiederholt detektierte Objekt entfernen und dann die mehreren Elemente von Fusionierungsdaten SF1 bis SF4 zusammenführen. Die Zusammenführungseinheit 600 kann die Informationen über das Objekt identifizieren, indem sie die mehrere Elemente von Fusionierungsdaten SF1 bis SF4 zusammenführt.
14 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6 und 11.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die elektronische Vorrichtung 3 in Operation S710 das Eingabebild IM abwärtssampeln und das erste Pyramidenbild PIM1 generieren. In Operation S720 kann die elektronische Vorrichtung 3 das erste Pyramidenbild PIM1 abwärtssampeln und das zweite Pyramidenbild PIM2 generieren. Die vorliegende Ausführungsform ist nicht darauf beschränkt. Die elektronische Vorrichtung 3 kann das Eingabebild IM abwärtssampeln und das zweite Pyramidenbild PIM2 generieren.
In Operation S730 kann die elektronische Vorrichtung 3 das erste Pyramidenbild PIM1 auf der Grundlage der ersten Maskendaten MK1 maskieren. Zum Beispiel kann die elektronische Vorrichtung 3 eine verbleibende Region maskieren, indem sie eine Teilregion (erste Region) ausschließt, von der eine durchschnittliche Distanz ein erster Wert in dem ersten Pyramidenbild PIM1 ist.
In Operation S740 kann die elektronische Vorrichtung 3 das zweite Pyramidenbild PIM2 auf der Grundlage der Daten der zweiten Maske MK2 maskieren. Zum Beispiel kann die elektronische Vorrichtung 3 eine verbleibende Region maskieren, indem sie eine Teilregion (zweite Region) ausschließt, von der eine durchschnittliche Distanz ein zweiter Wert ist, der kleiner als ein der erste Wert in dem zweiten Pyramidenbild PIM2 ist.
In Operation S750 kann die elektronische Vorrichtung 3 mehrere Elemente von Merkmalsdaten FD aus mehreren maskierten Bildern IMK erfassen, die auf der Grundlage der Maskierungsoperation generiert werden (zum Beispiel S730 und S740).
In Operation S760 kann die elektronische Vorrichtung 3 ein Objekt außerhalb der elektronischen Vorrichtung 3 auf der Grundlage der mehreren Elemente von Merkmalsdaten FD detektieren. Zum Beispiel kann die elektronische Vorrichtung 3 ein Objekt in der ersten Region auf der Grundlage der ersten Merkmalsdaten FD1, die Merkmalswerte der ersten Region umfassen, detektieren. Zusätzlich kann die elektronische Vorrichtung 3 ein Objekt in der zweiten Region auf der Grundlage der zweiten Merkmalsdaten FD2, die Merkmalswerte der zweiten Region umfassen, detektieren. Zum Beispiel kann die elektronische Vorrichtung 3 ein Objekt von einer relativ großen Distanz auf der Grundlage der ersten Merkmalsdaten FD1, die aus dem ersten maskierten Bild IMK1 extrahiert wurden, identifizieren. Im Gegensatz dazu kann die elektronische Vorrichtung 3 ein Objekt einer relativ geringen Distanz auf der Grundlage der zweiten Merkmalsdaten FD2, die aus dem zweiten maskierten Bild IMK2 extrahiert wurden, identifizieren.
15 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6 und 9.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die Sensoreinheit 100 in Operation S721 eine Tiefenmatrix DP in Bezug auf ein Objekt und einen Hintergrund einer Frontsicht vor dem Fahrzeug erfassen. Zum Beispiel kann die Sensoreinheit 100 ein 2D-Bild aufnehmen und die Tiefenmatrix DP auf der Grundlage des 2D-Bildes erfassen. Als ein weiteres Beispiel kann die Sensoreinheit 100 ein 3D-Bild aufnehmen und die Tiefenmatrix DP erfassen.
In Operation S722 kann die elektronische Vorrichtung 3 mehrere Elemente von Maskendaten MK mit verschiedenen durchschnittlichen Tiefen auf der Grundlage mindestens eines der Eingabebilder IM und der Tiefenmatrix DP generieren. Zum Beispiel können die mehreren Elemente von Maskendaten MK die ersten Maskendaten MK1 und die zweiten Maskendaten MK2 mit einer durchschnittlichen Tiefe umfassen, die geringer ist als die der ersten Maskendaten MK1. Die Tiefenmatrix DP kann zum Beispiel mit Hilfe mindestens eines von einer Stereokamera, einer Einzelkamera und einem Distanzsensor erfasst werden. Infolgedessen können mehrere Elemente von Maskendaten mit verschiedenen durchschnittlichen Tiefen generiert werden.
In Operation S731 kann die elektronische Vorrichtung 3 das erste Pyramidenbild PIM1 auf der Grundlage der ersten Maskendaten MK1 maskieren. Die elektronische Vorrichtung 3 kann das erste maskierte Bild IMK1 durch Maskieren des ersten Pyramidenbildes PIM1 generieren. In Operation S732 kann die elektronische Vorrichtung 3 die ersten Merkmalsdaten FD1 aus dem ersten maskierten Bild IMK1 detektieren. In Operation S741 kann die elektronische Vorrichtung 3 das zweite Pyramidenbild PIM2 auf der Grundlage der zweiten Maskendaten MK2 mit einer durchschnittlichen Tiefe, die geringer ist als die der ersten Maskendaten MK1, maskieren. Die elektronische Vorrichtung 3 kann das zweite maskierte Bild IMK2 durch Maskieren des zweiten Pyramidenbildes PIM2 generieren. In Operation S742 kann die elektronische Vorrichtung 3 die zweiten Merkmalsdaten FD2 aus dem zweiten maskierten Bild IMK2 detektieren. Zum Beispiel kann die Größe der ersten Maskendaten MK1 und der zweiten Maskendaten MK2 so geändert werden, dass sie dem ersten Pyramidenbild PIM1 bzw. dem zweiten Pyramidenbild PIM2 entsprechen.
16 ist ein Flussdiagramm eines Betriebsverfahrens einer elektronischen Vorrichtung gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts. Im Folgenden bezieht sich eine Beschreibung auf die Bezugszeichen von 4 bis 6, 11A, 12 und 13.
Gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts kann die elektronische Vorrichtung 3 in Operation S761 die verketteten Daten CD auf der Grundlage der ersten Merkmalsdaten FD1 und der zweiten Merkmalsdaten FD2 empfangen. Die ersten Merkmalsdaten FD1 können die Merkmalswerte des ersten maskierten Bildes IMK1 umfassen. Die zweiten Merkmalsdaten FD2 können die Merkmalswerte des zweiten maskierten Bildes IMK2 umfassen.
Die elektronische Vorrichtung 3 kann ein Objekt in dem Eingabebild IM auf der Grundlage der verketteten Daten CD in Operation S762 detektieren und Detektionsdaten in Operation S763 ausgeben. Die Detektionsdaten können die ersten Detektionsdaten IC1 und die zweiten Detektionsdaten IC2, die oben mit Bezug auf 12 beschrieben wurden, umfassen.
Die elektronische Vorrichtung 3 kann die ersten Abtastdaten SD1 von dem ersten Distanzsensor 521 in Operation S771 empfangen und die zweiten Abtastdaten SD2 von dem zweiten Distanzsensor 522 mit einer kürzeren effektiven Abtastdistanz als der erste Distanzsensor 521 in Operation S772 empfangen. Danach kann, in Operation S773, die elektronische Vorrichtung 3 mindestens eines der mehreren Elemente von Detektionsdaten IC1 bis IC4 und mindestens eines der mehreren Elemente von Abtastdaten SD1 bis SD4 fusionieren. Zum Beispiel kann die elektronische Vorrichtung 3 die ersten Detektionsdaten IC1 und die ersten Abtastdaten SD1 fusionieren und die zweiten Detektionsdaten IC2 und die zweiten Abtastdaten SD2 fusionieren. Die elektronische Vorrichtung 3 kann die mehreren Elemente von Fusionierungsdaten SF1 bis SF4 in Operation S774 zusammenführen und 3D-Informationen des in dem Eingabebild IM enthaltenen Objekts auf der Grundlage der zusammengeführten Daten in Operation S780 erfassen.
17 ist ein Blockdiagramm eines elektronischen Systems gemäß einer beispielhaften Ausführungsform des erfinderischen Konzepts.
Das in 17 gezeigte elektronische System kann ein Anwendungsprozessor 800 sein. Der Anwendungsprozessor 800 kann durch ein System on Chip (SoC) als einem Halbleiterchip implementiert werden.
Der Anwendungsprozessor 800 kann einen Prozessor 810 und einen Operationsspeicher 820 umfassen. Zusätzlich kann der Anwendungsprozessor 800, obgleich in 17 nicht gezeigt, ein oder mehrere Intellectual Property-Module (IP-Module) umfassen, die mit einem Systembus verbunden sind. Der Arbeitsspeicher 820 kann Software, wie zum Beispiel verschiedene Arten von Programmen und Instruktionen, speichern, die mit dem Betrieb eines Systems verbunden sind, das den Anwendungsprozessor 800 verwendet. Zusätzlich kann der Operationsspeicher 820 zum Beispiel ein Betriebssystem (Operating System, OS) 821 und ein künstliches neuronales Netzmodul 822 umfassen. Der Prozessor 810 kann allgemein den Betriebsspeicher 820 steuern. Das künstliche neuronale Netzmodul 822 kann die Bildverarbeitungsoperation und die Objekterkennungsoperation ausführen, die oben mit Bezug auf 1 bis 16 beschrieben wurden.
Obgleich das erfinderische Konzept speziell mit Bezug auf Ausführungsformen dieses Konzepts gezeigt und beschrieben wurde, versteht es sich, dass verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne vom Wesen und Schutzumfang der folgenden Ansprüche abzuweichen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

KR 1020190108932 [0001]

Claims

Fahrassistenzsystem, umfassend: eine erste Sensoreinheit, die dafür eingerichtet ist, ein Eingabebild, das ein anderes Fahrzeug und einen Hintergrund umfasst, bereitzustellen; einen Bildprozessor, der dafür eingerichtet ist, mehrere Pyramidenbilder durch Abwärtssampeln des Eingabebildes zu generieren, eine Tiefenmatrix zu identifizieren, die Tiefenwerte zu dem anderen Fahrzeug und dem Hintergrund umfasst, mehrere Maskendatenelemente mit verschiedenen durchschnittlichen Tiefen der Tiefenwerte auf der Grundlage der Tiefenmatrix zu generieren, und mehrere maskierte Bilder, die verschiedene durchschnittliche Distanzen darstellen, auf der Grundlage der mehreren Maskendatenelemente und der mehreren Pyramidenbilder auszugeben; einen Merkmalsextrahierer, der dafür eingerichtet ist, Merkmalsdaten eines jeden der mehreren maskierten Bilder auszugeben; und einen Detektor, der dafür eingerichtet ist, das andere Fahrzeug, das in dem Eingabebild enthalten ist, auf der Grundlage der Merkmalsdaten zu detektieren.
Fahrassistenzsystem nach Anspruch 1, wobei die erste Sensoreinheit eine Stereokamera umfasst, das Eingabebild ein Bild für das linke Auge und ein Bild für das rechte Auge umfasst, und der Bildprozessor des Weiteren dafür eingerichtet ist, die Tiefenmatrix auf der Grundlage eines Vergleichs des Bildes für das linke Auge und des Bildes für das rechte Auge zu erfassen.
Fahrassistenzsystem nach Anspruch 2, wobei der Bildprozessor des Weiteren dafür eingerichtet ist, auf der Grundlage des Eingabebildes eine interessierende Region (Region of Interest, RoI) zu generieren und eine verbleibende Region durch Ausschließen der Rol aus den mehreren Pyramidenbildern zu maskieren.
Fahrassistenzsystem nach Anspruch 1, wobei die mehreren Pyramidenbilder ein erstes Pyramidenbild und ein zweites Pyramidenbild umfassen, und der Bildprozessor des Weiteren dafür eingerichtet ist, das erste Pyramidenbild durch Abwärtssampeln des Eingabebildes zu generieren und das zweite Pyramidenbild durch Abwärtssampeln des ersten Pyramidenbildes zu generieren.
Fahrassistenzsystem nach Anspruch 4, wobei die mehreren Maskendatenelemente erste Maskendaten und zweite Maskendaten, die eine geringere durchschnittliche Tiefe als die ersten Maskendaten aufweisen, umfassen, die mehreren maskierten Bilder ein erstes maskiertes Bild und ein zweites maskiertes Bild umfassen, und der Bildprozessor des Weiteren dafür eingerichtet ist, die Größe der ersten Maskendaten und der zweiten Maskendaten so zu ändern, dass sie dem ersten Pyramidenbild und dem zweiten Pyramidenbild entsprechen, das erste maskierte Bild auszugeben, in dem die ersten Maskendaten auf das erste Pyramidenbild angewendet werden, und das zweite maskierte Bild auszugeben, in dem die zweiten Maskendaten auf das zweite Pyramidenbild angewendet werden.
Fahrassistenzsystem nach Anspruch 1, wobei der Bildprozessor des Weiteren dafür eingerichtet ist, eine verbleibende Region durch Ausschließen mindestens eines von dem anderen Fahrzeug, einer Straße und einem Fußgänger aus dem Eingabebild zu maskieren und die mehreren Pyramidenbilder auf der Grundlage eines maskierten Bildes zu generieren.
Fahrassistenzsystem nach Anspruch 1, wobei die mehreren maskierten Bilder ein erstes maskiertes Bild und ein zweites maskiertes Bild umfassen, der Merkmalsextrahierer des Weiteren dafür eingerichtet ist, erste Merkmalsdaten, die auf der Grundlage des ersten maskierten Bildes generiert werden, und zweite Merkmalsdaten, die auf der Grundlage des zweiten maskierten Bildes generiert werden, auszugeben, und der Detektor des Weiteren dafür eingerichtet ist, verkettete Daten zu empfangen, die durch Verketten der ersten Merkmalsdaten und der zweiten Merkmalsdaten generiert werden.
Fahrassistenzsystem nach Anspruch 7, des Weiteren umfassend: einen Abwärtssampler, der dafür eingerichtet ist, die zweiten Merkmalsdaten abwärtszusampeln und abwärtsgesampelte Merkmalsdaten auszugeben; und einen Puffer, der dafür eingerichtet ist, die verketteten Daten durch Verketten der ersten Merkmalsdaten und der abwärtsgesampelten Merkmalsdaten auszugeben.
Fahrassistenzsystem nach Anspruch 1, des Weiteren umfassend: eine zweite Sensoreinheit, die ersten Distanzsensor und einem zweiten Distanzsensor, der eine kürzere Abtastdistanz als der erste Distanzsensor hat, umfasst, wobei der Detektor des Weiteren einen ersten Sub-Detektor und einen zweiten Sub-Detektor umfasst; eine erste Sensorfusionierungseinheit, die dafür eingerichtet ist, erste Detektionsdaten, die von dem ersten Sub-Detektor ausgegeben werden, und erste Abtastdaten, die von dem ersten Distanzsensor ausgegeben werden, zu fusionieren und die ersten Fusionierungsdaten auszugeben; und eine zweite Sensorfusionierungseinheit, die dafür eingerichtet ist, zweite Detektionsdaten, die von dem zweiten Sub-Detektor ausgegeben werden, und zweite Abtastdaten, die von dem zweiten Distanzsensor ausgegeben werden, zu fusionieren und zweite Fusionierungsdaten auszugeben, wobei die ersten Detektionsdaten auf der Grundlage eines Bildes generiert werden, das ein Objekt einer größeren Distanz enthält als die der zweiten Detektionsdaten.
Fahrassistenzsystem nach Anspruch 9, des Weiteren umfassend: einen dritten Distanzsensor, der eine kürzere Abtastdistanz hat als der zweite Distanzsensor, wobei der dritte Distanzsensor dritte Abtastdaten ausgibt, und die zweite Sensorfusionierungseinheit des Weiteren dafür eingerichtet ist, die zweiten Detektionsdaten, die zweiten Abtastdaten und die dritten Abtastdaten zu fusionieren.
Fahrassistenzsystem nach Anspruch 9, des Weiteren umfassend eine Zusammenführungseinheit, die dafür eingerichtet ist, dreidimensionale Informationen des anderen Fahrzeugs auf der Grundlage der ersten Fusionierungsdaten und der zweiten Fusionierungsdaten zu erfassen.
Elektronische Vorrichtung zum Detektieren eines Objekts aus einem Eingabebild, wobei die elektronische Vorrichtung umfasst: einen Bildprozessor, der dafür eingerichtet ist, ein erstes Pyramidenbild durch Abwärtssampeln des Eingabebildes zu generieren, ein zweites Pyramidenbild durch Abwärtssampeln des ersten Pyramidenbildes zu generieren, eine Teilregion, von der eine durchschnittliche Distanz einen ersten Wert angibt, anhand des ersten Pyramidenbildes als eine erste Region zu identifizieren, und eine Teilregion, von der eine durchschnittliche Distanz einen zweiten Wert angibt, anhand des zweiten Pyramidenbildes als eine zweite Region zu identifizieren, wobei der zweite Wert größer als der erste Wert ist, und Bilder der ersten Region und der zweiten Region auszugeben; einen ersten Kern, der dafür eingerichtet ist, erste Merkmalsdaten zu generieren, die Merkmalswerte der ersten Region umfassen, und ein Objekt in der ersten Region auf der Grundlage der ersten Merkmalsdaten zu detektieren; und einen zweiten Kern, der dafür eingerichtet ist, zweite Merkmalsdaten zu generieren, die Merkmalswerte der zweiten Region umfassen, und ein Objekt in der zweiten Region auf der Grundlage der zweiten Merkmalsdaten zu detektieren.
Elektronische Vorrichtung nach Anspruch 12, wobei der erste Kern und der zweite Kern eine arithmetische Operation unter Verwendung eines künstlichen neuronalen Netzes ausführen.
Elektronische Vorrichtung nach Anspruch 12, wobei der Bildprozessor des Weiteren dafür eingerichtet ist, kein Bild, das die erste Region umfasst, an den ersten Kern auszugeben, wenn eine durchschnittliche Distanz eines Bildes der ersten Region größer als eine voreingestellte Distanz ist, und der erste Kern des Weiteren dafür eingerichtet ist, keine ersten Merkmalsdaten zu generieren, wenn die durchschnittliche Distanz des Bildes der ersten Region größer als die voreingestellte Distanz ist.
Elektronische Vorrichtung nach Anspruch 14, wobei der zweite Kern des Weiteren dafür eingerichtet ist, die zweiten Merkmalsdaten an den ersten Kern auszugeben, und der erste Kern des Weiteren dafür eingerichtet ist, keine ersten Merkmalsdaten zu empfangen und keine zweiten Merkmalsdaten zu empfangen und kein Objekt in der zweiten Region zu detektieren.
Elektronische Vorrichtung nach Anspruch 12, wobei der erste Kern einen Merkmalsextrahierer umfasst, und der Merkmalsextrahierer dafür eingerichtet ist, ein Merkmal der ersten Region aus dem ersten Pyramidenbild zu extrahieren und eine Merkmalsextraktionsoperation für eine verbleibende Region zu überspringen.
Elektronische Vorrichtung nach Anspruch 12, wobei der Bildprozessor des Weiteren dafür eingerichtet ist, eine verbleibende Region durch Ausschließen der ersten Region aus dem ersten Pyramidenbild zu maskieren, eine verbleibende Region durch Ausschließen der zweiten Region aus dem zweiten Pyramidenbild zu maskieren und das maskierte erste und zweite Pyramidenbild auszugeben.
Betriebsverfahren für eine elektronische Vorrichtung, wobei das Betriebsverfahren umfasst: Generieren eines ersten Pyramidenbildes durch Abwärtssampeln eines Eingabebildes, das ein Objekt und einen Hintergrund umfasst; Generieren eines zweiten Pyramidenbildes durch Abwärtssampeln des ersten Pyramidenbildes; Maskieren einer verbleibenden Region durch Ausschließen, aus dem ersten Pyramidenbild, einer ersten Region mit einer durchschnittlichen Distanz eines ersten Wertes; Maskieren einer verbleibenden Region durch Ausschließen, aus dem zweiten Pyramidenbild, einer zweiten Region mit einer durchschnittlichen Distanz eines zweiten Werts, der kleiner als der erste Wert ist; Erfassen mehrerer Merkmalsdatenelemente aus mehreren maskierten Bildern, die auf der Grundlage mehrerer Maskierungsoperationen generiert werden; und Detektieren des Objekts auf der Grundlage der mehreren Merkmalsdatenelemente.
Betriebsverfahren nach Anspruch 18, des Weiteren umfassend: Erfassen einer Tiefenmatrix, die Tiefeninformationen für das Objekt und den Hintergrund umfasst und Generieren mehrerer Maskendatenelemente, die verschiedene durchschnittliche Tiefen aufweisen, auf der Grundlage der Tiefenmatrix.
Betriebsverfahren nach Anspruch 19, wobei die mehreren Maskendatenelemente erste Maskendaten und zweite Maskendaten, die eine geringere durchschnittliche Tiefe als die ersten Maskendaten aufweisen, umfassen, wobei die erste Region auf der Grundlage des Maskierens des ersten Pyramidenbildes auf der Grundlage der ersten Maskendaten identifiziert wird, und wobei die zweite Region auf der Grundlage des Maskierens des zweiten Pyramidenbildes auf der Grundlage der zweiten Maskendaten identifiziert wird.
Betriebsverfahren nach Anspruch 20, wobei die Größe der ersten Maskendaten und der zweiten Maskendaten so geändert wird, dass sie den Größen des ersten Pyramidenbildes bzw. des zweiten Pyramidenbildes entsprechen.
Betriebsverfahren nach Anspruch 19, des Weiteren umfassend: Erfassen der Tiefenmatrix unter Verwendung mindestens eines von einer Stereokamera, einer Einzelkamera und einem Distanzsensor.
Betriebsverfahren nach Anspruch 19, des Weiteren umfassend: Empfangen verketteter Daten auf der Grundlage erster Merkmalsdaten und zweiter Merkmalsdaten; und Detektieren des Objekts des Eingabebildes auf der Grundlage der verketteten Daten und Ausgeben von Detektionsdaten.
Betriebsverfahren nach Anspruch 23, wobei die Detektionsdaten erste Detektionsdaten und zweite Detektionsdaten umfassen, und wobei das Betriebsverfahren des Weiteren umfasst: Empfangen erster Abtastdaten von einem ersten Distanzsensor; Empfangen zweiter Abtastdaten von einem zweiten Distanzsensor, der eine kürzere effektive Abtastdistanz als der erste Distanzsensor hat; Fusionieren der ersten Detektionsdaten und der ersten Abtastdaten; Fusionieren der zweiten Detektionsdaten und der zweiten Abtastdaten; und Erfassen dreidimensionaler Informationen über das in dem Eingabebild enthaltene Objekt.
Verfahren zur Bildverarbeitung, umfassend: Empfangen von Eingangsdaten, die Bilddaten und Distanzdaten, die den Bilddaten entsprechen, enthalten; Generieren mehrerer abwärtsgesampelter Bilder auf der Grundlage der Bilddaten, wobei jedes der mehreren abwärtsgesampelten Bilder einer anderen Bildauflösung entspricht; Generieren mehrerer Bildmasken auf der Grundlage der Distanzdaten, wobei jede der mehreren Bildmasken einem anderen durchschnittlichen Distanzwert entspricht; Generieren mehrerer maskierter Bilder, wobei jedes der mehreren maskierten Bilder auf einem der mehreren abwärtsgesampelten Bilder und einer der mehreren Bildmasken basiert; Generieren von Merkmalsdaten auf der Grundlage der mehreren maskierten Bilder; und Detektieren eines Objekts auf der Grundlage der Merkmalsdaten.