DE102021205230A1

DE102021205230A1 - Gefahrendetektions-ensemblearchitektursystem und-verfahren

Info

Publication number: DE102021205230A1
Application number: DE102021205230.4A
Authority: DE
Inventors: Simon Geisler; Carlos Eduardo Cunha; Ravi Kumar Satzoda
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-05-22
Filing date: 2021-05-21
Publication date: 2021-11-25
Also published as: US20210366096A1; CN113723170A

Abstract

Es werden ein System und ein Verfahren offenbart, die einen Satz von Ensembleverfahren einsetzen können, die mehrere Maschinenlernalgorithmen oder statistische Algorithmen zur Gefahrendetektion umfassen. Das System und das Verfahren können unter Verwendung mehrerer Deep-Learning-Algorithmen Bilder, Stereo- und Kontextinformationen kombinieren, um Gefahren akkurat zu detektieren. Das System und das Verfahren können einen Tiefenkanal in den Rot-, Grün- und Blau-Kanälen (RGB-Kanälen) des Bildes einbeziehen, um ein 4 Kanal-RGBD-Bild zu erstellen. Das System und das Verfahren können auch ein RGB-Bild mit einer Farbkarte des Tiefenkanals überlagern. Das System und das Verfahren können ferner Regionen von Interesse (ROI) mit den RGB-Kanälen eines Bildes verketten. Zuletzt können das System und das Verfahren einen unterstützenden Semantische-Segmentierung-Decoder für ein Multitask-Lernereignis an einem befahrbaren Raum einbeziehen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft eine Ensemblearchitektur zum Detektieren von Gefahren in einem Stereobild.
HINTERGRUND
Fremdkörper auf Straßen führen in den Vereinigten Staaten jedes Jahr zu zahlreichen gemeldeten Unfällen. Ein robustes Frühdetektions- und -warnsystem und -verfahren für Fremdkörper oder Gefahren auf Straßen können erstrebenswert sein, ob in einem autonomen Fahrsystem oder einem herkömmlichen (d. h. menschengesteuerten) Fahrsystem implementiert.
KURZFASSUNG
Es werden ein System und ein Verfahren zum Detektieren von Gefahren in einem Stereobild mit einem Rot-Kanal, einem Blau-Kanal und einem Grün-Kanal offenbart. Der Rot-Kanal, der Blau-Kanal und der Grün-Kanal erzeugen ein 3-Kanal-RGB-Bild. Das System und das Verfahren können ein Ensemblenetz mit einer oder mehreren Faltungsschichten, Batch-Normal-Schichten, YOLO-Schichten und Upsample-Schichten beinhalten. Es wird in Betracht gezogen, dass das Ensemblenetz unter Verwendung einer YOLOv3-Tiny- oder Mask-R-CNN-Architektur ausgestaltet sein kann.
Das Ensemblenetz kann betriebsfähig sein zum Bestimmen der einen oder der mehreren Gefahren in dem Stereobild durch Verketten eines Tiefenkanals mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal, wobei durch die Verkettung ein 4-Kanal-RGBD-Bild erzeugt wird. Das Ensemblenetz kann auch betriebsfähig sein zum Erhöhen einer Anzahl von Bits jeweils des Rot-Kanals, des Blau-Kanals und des Grün-Kanals, um ein modifiziertes 3-Kanal-RGB-Bild zu erzeugen. Das modifizierte 3-Kanal-RGB-Bild kann dann mit einer Farbkarte eines Tiefenkanals überlagert werden.
Das Ensemblenetz kann die eine oder die mehreren Gefahren in dem Stereobild auch durch Extrahieren einer Region von Interesse aus einer Label-Karte und Verketten der Region von Interesse mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmen, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird. Das Ensemblenetz kann die eine oder die mehreren Gefahren in dem Stereobild auch durch Verketten einer Ausgangsklassifikation von einem Semantische-Segmentierung-Algorithmus mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmen, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
Das Ensemblenetz kann ferner ein erstes RGB-Encodernetz und ein zweites Tiefenencodernetz beinhalten, wobei das erste RGB-Encodernetz mehrere Fusionsschichten aufweist und ein Ausgangswert von mehreren Encodernetzschichten zu den mehreren Fusionsschichten addiert wird. Zuletzt kann ein unterstützender Semantische-Segmentierung-Decoder enthalten sein, um das Ensemblenetz dazu zu bringen, ein oder mehrere Merkmale für einen befahrbaren Raum zu erlernen, um die eine oder die mehreren Gefahren in dem Stereobild zu bestimmen.
Figurenliste

1 veranschaulicht ein beispielhaftes Rechensystem.
2 veranschaulicht ein beispielhaftes neuronales Faltungsnetz.
3A und 3B veranschaulichen beispielhafte Ensemble-Maschinenlernarchitekturen zum Detektieren von Gefahren.
4 veranschaulicht ein Rechensystem, das einen zumindest teilweise autonomen Roboter steuert.

AUSFÜHRLICHE BESCHREIBUNG
Ausführungsformen der vorliegenden Offenbarung werden hier beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Hier offenbarte spezielle strukturelle und funktionale Einzelheiten sind daher nicht als beschränkend aufzufassen, sondern lediglich als eine repräsentative Basis, um Fachleute zu lehren, die Ausführungsformen verschiedentlich einzusetzen. Durchschnittsfachleute werden verstehen, dass verschiedene unter Bezugnahme auf irgendeine der Figuren veranschaulichte und beschriebene Merkmale mit in einer oder mehreren anderen Figuren veranschaulichten Merkmalen kombiniert werden können, um Ausführungsformen hervorzubringen, die nicht explizit veranschaulicht oder beschrieben sind. Die Kombinationen veranschaulichter Merkmale stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Verschiedene Kombinationen und Modifikationen der mit den Lehren dieser Offenbarung konsistenten Merkmale könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Fremdkörper auf Straßen führen in den Vereinigten Staaten jedes Jahr zu zahlreichen Polizei-gemeldeten Unfällen. Daher ist es erstrebenswert, dass sowohl autonome Fahrsysteme als auch herkömmliche Fahrsysteme zur Frühdetektionswarnung und Reaktion auf Gefahren/Fremdkörper in der Lage sind. Während in Betracht gezogen wird, dass bestehende Systeme dahingehend arbeiten können, Objekte zu detektieren (z. B. Fußgängerdetektion oder Ampel-/Verkehrszeichendetektion), werden Gefahrendetektionssysteme nicht ohne Weiteres eingesetzt, obgleich Fahrzeugsteuerungen in der Regel nicht dazu ausgestaltet sind, sie zu detektieren.
Um das Problem der Gefahrendetektion anzugehen, können ein oder mehrere Computer-Vision-Algorithmen (z. B. Stereo Vision und Optical Flow) eingesetzt werden. Oder es können auch Okklusionskantenkarten verwendet werden, um die Detektion kleiner Gefahren zu unterstützen. Es können auch ein oder mehrere Deep-Learning-Algorithmen an einer Pixelebenenmetrik eingesetzt werden, nachdem sie einen Trainingsprozess unter Verwendung eines Lost-and-Found-Datensatzes durchlaufen haben.
Zum Beispiel kann Fast-Direct Planar Hypothesis Testing (FPHT), bei dem der Lost-and-Found-Datensatz und ein Stereo-Vision-basierter Algorithmus kombiniert werden, zur Gefahrendetektion verwendet werden. Es versteht sich, dass der Lost-and-Found-Datensatz ein bekannter Benchmark zum Trainieren von Gefahrendetektions-Maschinenlernalgorithmen sein kann. Der FPHT-Algorithmus kann auf der statistischen Analyse von Disparitätskarten von Stereokameras für befahrbare Räume und Hindernisse basieren. Der FPHT-Algorithmus kann arbeiten, indem ein Hypothesentest auf rechnerisch robuste und effiziente Weise durchgeführt wird, falls ein Objekt vorhanden ist. Der Deep-Learning-Algorithmus kann auch betriebsfähig sein zur erscheinungsbasierten Detektion kleiner Gefahren auf Straßen. Es wird in Betracht gezogen, dass die vorhergesagten FPHT-Stixel dann unter Verwendung einer oder mehrerer Maschinenlernarchitekturen (z. B. GoogLeNet) mit aus einem Semantische-Segmentierung-Netz extrahierten Stixeln fusioniert werden können.
Ein weiterer Gefahrendetektionsalgorithmus kann einen Semantische-Segmentierung-Ansatz (z. B. MergeNet) mit einer potenziellen Arbeitsleistungsfähigkeit wie die durch die FPHT-Fusion bereitgestellte einsetzen. Es wird in Betracht gezogen, dass bei der semantischen Segmentierung sowohl RGB-Bilder als auch eine herkömmliche abgeleitete Disparitätskarte zum Einsatz kommen. Der MergeNet-Prozess kann auch zwei bis drei Semantische-Segmentierung-Netze einsetzen. Ein zusätzliches und relativ flaches Netz kann verwendet werden, um die verschiedenen semantischen Karten zu fusionieren. Im Allgemeinen kann ein Semantische-Segmentierung-Netz, das an dem Vollauflösungs-RGB-Bild arbeitet, mit einem anderen Netz, das an vertikalen Streifen eines Bildes arbeitet, kombiniert werden.
Es kann auch ein Anomaliedetektionsalgorithmus verwendet werdet werden, um Gefahren zu detektieren, indem die Straße unter Verwendung von Kompressionsnetzen, wie etwa einer beschränkten Boltzmann-Maschine (RBM) oder Autoencodern, rekonstruiert wird. Es wird in Betracht gezogen, dass auch ein generatives Adversial-Netz (GAN) verwendet werden kann, um unerwartete Gefahren zu detektieren. Die semantische Segmentierung kann dann als Eingabe des GAN verwendet werden, um die ursprüngliche Karte zu resynthetisieren. Das erzeugte Bild kann dann mit dem Eingabebild verglichen werden, um Diskrepanzen zu detektieren.
Stereo-Vision-Algorithmen zum Berechnen von Tiefe (d. h. Disparitätskarten) erfordern weniger Rechenzeit (d. h. schneller), sind jedoch möglicherweise empfindlicher gegenüber Okklusionen und Sensorrauschen. Daher wird in Betracht gezogen, dass es schwierig sein kann, Disparitätsinformationen in Kombination mit RGB-Bildern bei Deep Learning rein als vierten Kanal zu nutzen, da Frühfusionsansätze rauschempfindlich sein können. Ein Rechensystem 102 kann betriebsfähig sein zum Bewältigen möglicher Herausforderungen hinsichtlich dieses Ansatzes, da die Tiefe in einem alternativen Verfahren repräsentiert werden kann oder eine alternative Spätfusionsarchitektur und eine neue Tiefendatenaugmentationstechnik eingesetzt werden können. Es wird auch in Betracht gezogen, dass zusätzlich der FuseNet-Ansatz eingesetzt werden kann, wobei eine Mittelfusionsstrategie verwendet wird. Das Rechensystem 102 kann somit zum Einsetzen eines Mittel- oder Spätfusionsalgorithmus betriebsfähig sein.
Multitask-Lernalgorithmen werden auch zur Gefahrendetektion in Betracht gezogen, wobei mehrere Computer-Vision-Aufgaben mit einem gemeinsamen neuronalen Netz gelöst werden können. Bei diesem Ansatz können sowohl Objektdetektion als auch semantische Segmentierung zum Einsatz kommen, wobei diese Techniken jedoch möglicherweise nicht ausschließlich für zweidimensionale Aufgaben vorgesehen sind. Aufgrund der geteilten Berechnungen kann das kombinierte Netz günstiger als unabhängige Netze sein, und Multitask-Lernalgorithmen können auch eine verbesserte Generalisierung liefern.
Obgleich einer oder mehrere dieser Algorithmen zur Gefahrendetektion eingesetzt werden können, bestehen weiterhin mögliche Herausforderungen. Zum Beispiel betrifft eine möglicherweise bestehende Herausforderung ein „Klassenungleichgewicht“, wobei - anders als bei Verkehrszeichen-, Fahrzeug- oder Fußgängerdetektionsaufgaben - sich das Problem der Gefahrendetektion schwieriger gestalten kann, da Gefahren auf Straßen weniger gängig sein können. Obgleich sie weniger gängig sind, sind Gefahren auf Straßen dennoch jedes Jahr für eine signifikante Anzahl von Unfällen verantwortlich (z. B. etwa 50.000 Unfälle alleine in den Vereinigten Staaten). Aufgrund der geringeren Gängigkeit jedoch sind Naturalistic-Driving-Datensätze (naturalistisches Fahrverhalten) mit Gefahren, die sich zum Trainieren von Maschinenlernalgorithmen verwenden lassen, allgemein weniger verfügbar, und die Trainingsprozedur kann kostspieliger sein als für ausgeglichene Detektionsaufgaben.
Eine andere möglicherweise bestehende Herausforderung betrifft den „Kontext“, wobei ein Objekt abhängig davon, ob es sich in dem möglichen Fahrweg eines Fahrzeugs befindet, als eine Gefahr betrachtet werden kann. Mit Bezug auf Maschinenlernalgorithmen gehört zu der Herausforderung nicht nur das Detektieren von Objekten, sondern auch das Entwickeln eines Algorithmus, mit dem sich bestimmen lässt, ob diese Objekte angesichts ihres derzeitigen Standorts problematisch sein können. So kann zum Beispiel ein gegebenes Objekt (z. B. ein Schlagloch) einer angemessenen Größe als eine Gefahr betrachtet werden, wenn und nur wenn sich das Objekt in dem möglichen Fahrweg des Fahrzeugs befindet.
Eine weitere möglicherweise bestehende Herausforderung betrifft die „Diversität“ eines Objekts. Da es eine unendliche Anzahl an Objekten geben kann, die als eine Gefahr klassifiziert werden können, sollten Maschinenlernalgorithmen, die sich mit Gefahrendetektion befassen, in der Lage sein, Dinge vorherzusagen, die in dem Trainingssatz möglicherweise nicht verfügbar sind. Zum Beispiel kann es sich bei Trümmern von Autokollisionen, verlorenen Ladungsstücken, Rissen in der Straße und Spielzeug um diverse mögliche Gefahren handeln, die bezüglich Form, Farbe oder Zusammensetzung keinerlei Konsistenz aufweisen. Darüber hinaus können sich Fahrszenen, in denen Gefahren vorkommen, stark unterscheiden - sowohl in der Realität als auch in öffentlich verfügbaren Datensätzen. Die Diversität (d. h. Variabilität) von Gefahren macht den Erwerb ausreichender Daten schwierig und kann sich auf die Effizienz eines Echtzeitbetriebs des Maschinenlernalgorithmus beim Detektieren von Gefahren mit hohem Recall und hoher Precision auswirken.
Eine letzte möglicherweise bestehende Herausforderung betrifft die „Metriken“ eines Objekts. Zum Beispiel erfassen herkömmliche Objektdetektions- oder Semantische-Segmentierung-Metriken die Qualität des Algorithmus zur Gefahrenerkennung möglicherweise nicht vollständig. Jüngste Arbeiten im Metriken-Raum scheinen auch hinsichtlich der Instanzebenenmetriken nicht zu korrelieren. Daher besteht ein Bedarf, einen konsistenten Satz von Metriken bezüglich Gefahrenerkennung vorzuschlagen.
Hinsichtlich dieser Herausforderungen können durch Detektieren von Gefahren auf Straßenoberflächen unter Verwendung eines Pixelweise-Vorhersage-Algorithmus akkurate Ergebnisse geliefert werden, während Semantische-Segmentierung-Algorithmen rechenaufwendig sein können und Schwierigkeiten beim Verfolgen von Objekten über die Zeit aufweisen können. Bei der Gefahrendetektion ist es auch möglicherweise nicht erforderlich, einen pixelgenauen Umriss vorherzusagen. Stattdessen kann die Gefahrendetektion als eine Teilmenge einer Objektdetektion oder Instanzsegmentierung eingesetzt werden. Daher wird in Betracht gezogen, dass eine Objektdetektions- oder Instanzsegmentierungsarchitektur zu Beginn des Detektierens von Gefahren verwendet wird.
Durch Einsatz eines Objekt-/Instanzdetektionsalgorithmus zur Gefahrendetektion können mögliche Recall/Precision-Kompromisse und die Verfolgungsobjekte über die Zeit reduziert werden. Es kann auch eine Konfidenzschwelle eingesetzt werden, die abstimmbar sein kann, wodurch eine größere anwendungsübergreifende Flexibilität und eine verbesserte Leistungsfähigkeit beim Erfüllen der Anforderungen einer gegebenen Anwendung ermöglicht werden.
Während es auch möglich sein kann, eine ähnliche Leistungsfähigkeit mit einem Semantische-Segmentierung-Algorithmus zu erzielen, kann die Implementierung einer solchen Lösung komplexer sein und eine größere Anpassung des Verlusts während des Trainingsprozesses erforderlich sein. Um zwischen verschiedenen Instanzen zu unterscheiden, besteht auch ein Erfordernis, die Objekte mit verschiedenen Trajektorien zu verfolgen. Es wird in Betracht gezogen, dass Kalman-Filteralgorithmen eingesetzt werden, um diese Unterscheidungen zu treffen.
Es wird auch in Betracht gezogen, das Gefahren für gegebene Anwendungen (z. B. autonome Fahrzeuge) möglicherweise aus zunehmenden Entfernungen verlässlich detektiert werden müssen, da sich die Gefahren mit hohen Geschwindigkeiten nähern werden. Maschinenlemalgorithmen müssen möglicherweise auch falsche Positive vermeiden, wenn sie zusammen mit, oder als Teil von, einer Betriebssteuerstrategie eines autonomen Fahrzeugs eingesetzt werden.
Es wird auch in Betracht gezogen, dass es erforderlich ist, dass der Maschinenlernalgorithmus an einem diversen Satz von Gefahren arbeitet, bei denen es sich möglicherweise nur dann um Gefahren handelt, wenn sie in dem „richtigen“ Kontext auftreten - wie oben bezüglich der mit der Gefahrendetektion assoziierten Herausforderungen erläutert. Außerdem kann es, trotz der Möglichkeit eines hohen Klassenungleichgewichts, erforderlich sein, dass der Maschinenlernalgorithmus dahingehend trainiert wird und betriebsfähig ist, „potenzielle“ Gefahren zu detektieren (z. B. „es liegt etwas potenziell Gefährliches auf der Straße“).
Daher wird in Betracht gezogen, dass ein oder mehrere Maschinenlernalgorithmen und statistische Algorithmen eingesetzt werden können, um eine Detektion unerwarteter, undefinierter Gefahren auf Fahrwegen (z. B. Schnellstraßen, Alleen, Parkplätzen) bereitzustellen, die verschiedene Formen (z. B. Autos, Lastwagen und Fußgänger) und Größen (z. B. Objekte mit einer Größe zwischen 5 Zentimetern und 1 Meter) aufweisen können. Die Maschinenlernalgorithmen und die statistischen Algorithmen können auch Multitask-Lernen zur verbesserten Generalisierung beim Detektieren von Gefahren einsetzen. Aufgrund der möglichen Einschränkung von Rechenressourcen (z. B. eingebettete Anwendungen), können die Maschinenlernalgorithmen und die statistischen Algorithmen auch dahingehend optimiert werden, die erforderliche Funktionalität, die für gegebene Anwendungen notwendig ist, bereitzustellen. Es wird ferner in Betracht gezogen, dass die Maschinenlernalgorithmen und die statistischen Algorithmen mit reduziertem Rechenaufwand ausgestaltet werden können.
1 veranschaulicht ein beispielhaftes System 100, das dazu verwendet werden kann, einen oder mehrere Maschinenlernalgorithmen und statistische Algorithmen zum Detektieren unerwarteter, undefinierter Gefahren einzusetzen. Das System 100 kann mindestens eine Rechenvorrichtung 102 beinhalten. Das Rechensystem 102 kann mindestens einen Prozessor 104 beinhalten, der mit einer Speichereinheit 108 betriebsverbunden ist. Bei dem Prozessor 104 kann es sich um eine oder mehrere integrierte Schaltungen handeln, die die Funktionalität einer Verarbeitungseinheit (PU) 106 implementieren. Die PU 106 kann eine kommerziell erhältliche zentrale Verarbeitungseinheit (CPU) sein, die einen Befehlssatz, wie etwa einen der Befehlssatzfamilien x86, ARM, Power oder MIPS, implementiert. Oder die Verarbeitungseinheit 106 kann eine kommerziell erhältliche Grafikverarbeitungseinheit (GPU) sein, die aus hunderten Kernen besteht, betriebsfähig zum gleichzeitigen Bearbeiten zahlreicher paralleler Aufgaben (d. h. parallele Datenverarbeitung).
Während des Betriebs kann die PU gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 108 abgerufen werden. Die gespeicherten Programmanweisungen können Software beinhalten, die den Betrieb der PU 106 dahingehend steuert, die hier beschriebene Operation durchzuführen. Bei einigen Beispielen kann der Prozessor 104 ein System auf einem Chip (SoC) sein, das die Funktionalität der PU 106, der Speichereinheit 108, einer Netzwerkschnittstelle und von Eingabe/Ausgabe-Schnittstellen in einer einzigen integrierten Vorrichtung integriert. Das Rechensystem 102 kann ein Betriebssystem zum Verwalten verschiedener Aspekte des Betriebs implementieren.
Die Speichereinheit 108 kann einen flüchtigen Speicher und einen nichtflüchtigen Speicher zum Speichern von Anweisungen und Daten beinhalten. Der nichtflüchtige Speicher kann Festkörperspeicher, wie etwa NAND-Flash-Speicher, magnetische und optische Speicherungsmedien oder eine beliebige andere geeignete Datenspeicherungsvorrichtung, die Daten beibehält, wenn das Rechensystem 102 deaktiviert wird oder elektrische Leistung verliert, beinhalten. Der flüchtige Speicher kann einen statischen oder dynamischen Direktzugriffsspeicher (RAM) beinhalten, der Programmanweisungen und Daten speichert. Beispielsweise kann die Speichereinheit 108 ein(en) Maschinenlernmodell 110 oder -algorithmus, einen Trainingsdatensatz 112 für das Maschinenlernmodell 110 und/oder unverarbeitete Quellendaten 115 speichern.
Das Rechensystem 102 kann eine Netzwerkschnittstellenvorrichtung 122 beinhalten, die zum Bereitstellen einer Kommunikation mit externen Systemen und Vorrichtungen ausgelegt ist. Beispielsweise kann die Netzwerkschnittstellenvorrichtung 122 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle gemäß der Institute-of-Electrical-and-Electronics-Engineers(IEEE)802.11-Standardfamilie beinhalten. Die Netzwerkschnittstellenvorrichtung 122 kann eine Mobilfunkkommunikationsschnittstelle zum Kommunizieren mit einem Mobilfunknetz (z. B. 3G, 4G, 5G) beinhalten. Die Netzwerkschnittstellenvorrichtung 122 kann zum Bereitstellen einer Kommunikationsschnittstelle mit einem externen Netzwerk 124 oder einer Cloud ausgelegt sein.
Das externe Netzwerk 124 kann als das World Wide Web oder das Internet bezeichnet werden. Das externe Netzwerk 124 kann ein Standardkommunikationsprotokoll zwischen Rechenvorrichtungen einrichten. Das externe Netzwerk 124 kann ermöglichen, dass Informationen und Daten leicht zwischen Rechenvorrichtungen und Netzwerken ausgetauscht werden können. Ein oder mehrere Server 130 können mit dem externen Netzwerk 124 in Kommunikation stehen.
Das Rechensystem 102 kann eine Eingabe/Ausgabe(E/A)-Schnittstelle 120 beinhalten, die zum Bereitstellen digitaler und/oder analoger Eingaben und Ausgaben ausgelegt sein kann. Die E/A-Schnittstelle 120 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen beinhalten (z. B. die Universal-Serial-Bus(USB)-Schnittstelle).
Das Rechensystem 102 kann eine Mensch-Maschine-Schnittstellen(HMI)-Vorrichtung 118 beinhalten, die jede Vorrichtung beinhalten kann, die ermöglicht, dass das System 100 eine Steuereingabe empfängt. Zu Beispielen für Eingabevorrichtungen können Mensch-Schnittstelle-Eingaben wie etwa Tastaturen, Mäuse, Berührungsbildschirme, Spracheingabevorrichtungen und andere ähnliche Vorrichtungen gehören. Das Rechensystem 102 kann eine Anzeigevorrichtung 132 beinhalten. Das Rechensystem 102 kann Hardware und Software zum Ausgeben von Grafik- und Textinformationen an die Anzeigevorrichtung 132 beinhalten. Die Anzeigevorrichtung 132 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder eine andere geeignete Vorrichtung, um einem Benutzer Informationen anzuzeigen, beinhalten. Das Rechensystem 102 kann ferner dazu ausgelegt sein, eine Interaktion mit Fern-HMI- und Fernanzeigevorrichtungen über die Netzwerkschnittstellenvorrichtung 122 zu ermöglichen.
Das System 100 kann unter Verwendung eines oder mehrerer Rechensysteme implementiert werden. Obgleich das Beispiel ein einziges Rechensystem 102, das die beschriebenen Merkmale implementiert, darstellt, wird beabsichtigt, dass verschiedene Merkmale und Funktionen getrennt und durch mehrere miteinander in Kommunikation stehende Recheneinheiten implementiert werden können. Die ausgewählte Architektur kann von einer Vielzahl von Faktoren abhängen.
Das System 100 kann einen oder mehrere Maschinenlernalgorithmen 110 implementieren, die zum Analysieren der unverarbeiteten Quellendaten 115 (oder des Datensatzes) ausgelegt sind. Die unverarbeiteten Quellendaten 115 können rohe oder unverarbeitete Sensordaten beinhalten, die einen Eingangsdatensatz für ein Maschinenlernsystem repräsentieren können. Die unverarbeiteten Quellendaten 115 können Video, Videosegmente, Bilder und unverarbeitete oder teilweise verarbeitete Sensordaten beinhalten (z. B. Daten von einer Digitalkamera oder einem LiDAR-Sensor). Bei einigen Beispielen kann es sich bei dem Maschinenlernalgorithmus 110 um einen Neuronalnetzalgorithmus (z. B. Transformer, CNN, RNN oder DNN) handeln, der zum Durchführen einer vorbestimmten Funktion ausgestaltet sein kann.
Zum Beispiel veranschaulicht 2 ein nichteinschränkendes Beispiel eines CNN 200, das Folgendes beinhaltet: einen Eingangsdatensatz 210; eine oder mehrere Faltungsschichten 220-240; eine oder mehrere Pooling-Schichten 250-270; eine Fully-Connected-Schicht 280; und eine Softmax-Schicht 290.
Der Eingangsdatensatz 210 kann unverarbeitete Bilder, Sprachdaten oder Textdaten beinhalten. Der Eingangsdatensatz 210 kann auch von einem oder mehreren Sensoren empfangene Messungen beinhalten. Alternativ kann der Eingangsdatensatz 210 leicht verarbeitet werden, bevor er dem CNN 200 bereitgestellt wird. Die Faltungsschichten 220-240 können auch zum Extrahieren von Merkmalen aus dem Eingangsdatensatz 210 betriebsfähig sein. Im Allgemeinen versteht es sich, dass die Faltungsschichten 220-240 betriebsfähig sein können zum Anwenden von Filterungsoperationen (z. B. Kernels), bevor das Ergebnis an eine andere Schicht des CNN 200 weitergegeben wird. Zum Beispiel können die Faltungsschichten für einen gegebenen Datensatz (z. B. ein Farbbild) Filterungsroutinen ausführen, um Operationen wie Bildidentifikation, Kantendetektion eines Bildes und Bildverschärfung durchzuführen.
Es wird auch in Betracht gezogen, dass das CNN eine oder mehrere Pooling-Schichten 250-270 beinhalten kann, die die gefalteten Daten von den jeweiligen Faltungsschichten 220-240 empfangen. Die Pooling-Schichten 250-270 können eine oder mehrere Pooling-Schicht-Einheiten beinhalten, die eine Pooling-Funktion auf eine oder mehrere Faltungsschichtausgaben anwenden, berechnet auf verschiedenen Bändern unter Verwendung einer Pooling-Funktion. Zum Beispiel kann die Pooling-Schicht 250 eine Pooling-Funktion auf die von der Faltungsschicht 220 empfangene Kernelausgabe anwenden. Die durch die Pooling-Schichten 250-270 implementierte Pooling-Funktion kann eine Mittelungs- oder eine Maximal-Funktion oder eine beliebige andere Funktion, die mehrere Werte zu einem einzigen Wert aggregiert, sein.
Eine Fully-Connected-Schicht 280 kann auch betriebsfähig sein zum Erlernen nichtlinearer Kombinationen für die Merkmale hoher Ebene in den von den Faltungsschichten 220-240 und den Pooling-Schichten 250-270 empfangenen Ausgangsdaten. Zuletzt kann das CNN 200 eine Softmax-Schicht 290 beinhalten, die die Ausgaben der Fully-Connected-Schicht 280 unter Verwendung von Softmax-Funktionen kombiniert. Es wird in Betracht gezogen, dass der in 2 gezeigte Neuronalnetzalgorithmus zum Betrieb in Kraftfahrzeuganwendungen konfiguriert werden kann, um Objekte (z. B. Fußgänger) aus Bildern zu identifizieren, die von einer Digitalkamera und/oder einer Tiefenkarte von einem LiDAR-Sensor bereitgestellt werden.
Der Maschinenlernalgorithmus 200 kann betriebsfähig sein zum Kombinieren von Bild-, Stereo- und Kontextinformationen, um eine verbesserte Detektionsgenauigkeit und Rechengeschwindigkeit bereitzustellen. Zum Beispiel kann der Maschinenlernalgorithmus 200 Objektdetektionsarchitekturen einsetzen, bei denen RGB mit zusätzlichen Informationen ergänzt wird. Der Maschinenlernalgorithmus kann auch unter Verwendung bekannter oder maßgefertigter Architekturen (z. B. Mask R-CNN, DeepLabV3+, YOLOv3 Tiny), die eine kosteneffektive einsetzbare Echtzeitanwendung bereitstellen, ausgestaltet werden. Ein erster Satz von Strategien kann Disparitäten einbeziehen und ein zweiter Satz von Strategien kann dahingehend ausgestaltet sein, ein besseres Verständnis des befahrbaren Raums zu erzielen.
Der Maschinenlernalgorithmus 200 kann auch einen Trainingsprozess durchlaufen, bei dem ein oder mehrere Datensätze (z. B. der Lost-and-Found-Datensatz, KITTI, MS Coco, ImageNet, Cityscape) zum Einsatz kommen. Es versteht sich, dass der Lost-and-Found-Datensatz ein Stereo-Vision-Datensatz sein kann, der eine oder mehrere mittels semi-globalem Blockabgleich erhaltene vorberechnete Disparitätskarten enthält. Es wird auch in Betracht gezogen, dass der Lost-and-Found-Datensatz Label-Karten zur Segmentierung bereitstellen kann, darunter der befahrbare Raum und die Gefahren. Das Format des Lost-and-Found-Datensatzes kann auch allgemein der Struktur des Cityscapes-Datensatzes folgen.
Der Maschinenlernalgorithmus 200 kann auch betriebsfähig sein zum Detektieren von Gefahren durch Verketten des Tiefenkanals eines oder mehrerer als Daten 115 empfangener Bilder. Ein Einsatz von Verkettungen wird in Betracht gezogen, da dies als ein naives Verfahren zum Einbeziehen von Tiefe betrachtet werden kann.
Zum Beispiel veranschaulicht 3A eine Ausführungsform der Maschinenlernarchitektur 300, die durch das Rechensystem 102 eingesetzt werden kann. Es wird in Betracht gezogen, dass die Maschinenlernarchitektur 300 betriebsmäßig ausgestaltet sein kann wie die YOLOv3-Tiny-Architektur. Wie veranschaulicht kann die Maschinenlernarchitektur 300 ein RGB-Bild 302 und ein Tiefenbild 304 als Daten 115 empfangen. Die Maschinenlernarchitektur 300 kann dann eine oder mehrere Schichten 306-326 beinhalten, die dahingehend arbeiten, den Tiefenkanal mit den Rot-, Grün- und Blau-Kanälen des Bildes zu verketten, wodurch ein 4-Kanal-RGBD-Bild erzeugt wird.
Es wird in Betracht gezogen, dass die Schichten 306-316 eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen und Max-Pooling-Schichten beinhalten können. Die Schichten 318-320 können ebenso eine oder mehrere Faltungsschichten, Batch-Normal-Schichten und Leaky-ReLU-Aktivierungsfunktionen beinhalten.
Die Schichten 318-320 können jedoch nicht eine oder mehrere Max-Pooling-Schichten beinhalten. Die Schichten 322 und 326 können eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen und YOLO(You-Only-Look-Once)-Schichten beinhalten. Es wird in Betracht gezogen, dass die YOLO-Schicht eine Faltungsschicht, die YOLO-Ausgabeverarbeitung und eine Kostenfunktion beinhalten kann. Zuletzt kann die Schicht 324 eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen und eine oder mehrere Upsample-Schichten beinhalten. Es wird auch in Betracht gezogen, dass eine oder mehrere Skip-Architekturen eingesetzt werden können. Zum Beispiel kann die Ausgabe von Schicht 314 der Schicht 326 als Eingabe bereitgestellt werden. Ebenso kann die Ausgabe von Schicht 320 der Schicht 324 als Eingabe bereitgestellt werden. 3A veranschaulicht auch die Anzahl von Verkettungen (z. B. 1, 1/2, 1/4 usw.) und die Anzahl von Summierungen nach den Aktivierungen (z. B. 32, 64, 128 usw.).
Es wird auch in Betracht gezogen, dass bei dem Maschinenlemen 200 in alternativen Verfahren Tiefe einbezogen werden kann. Beispielsweise kann das RGB-Bild 302 mit einer Farbkarte eines Tiefenkanals überlagert werden, indem die Anzahl von Bits in jedem der RGB-Kanäle erhöht wird. Oder die Maschinenlernarchitektur 300 kann betriebsfähig sein zum Detektieren von Gefahren durch Verketten einer Region von Interesse (Rol) als den vierten Kanal. Zum Beispiel kann der Maschinenlernalgorithmus 200 die Rol aus einer Label-Karte extrahieren. Es wird auch in Betracht gezogen, dass der Maschinenlernalgorithmus während einer Laufzeitverarbeitung betriebsfähig sein kann zum Verketten der Ausgabe eines Semantische-Segmentierung-Algorithmus. Zum Beispiel kann ein Semantische-Segmentierung-Algorithmus bereits in einer Fahrzeugsteuerung eingesetzt sein. Die Maschinenlernarchitektur 300 kann die Ausgabe des bereits durch die Fahrzeugsteuerung eingesetzten Semantische-Segmentierung-Algorithmus empfangen, um eine Gefahrendetektion zu reduzierten Kosten bereitzustellen. Es wird jedoch auch in Betracht gezogen, dass eine erhaltene Verkettung auf Bitebene ähnliche Ergebnisse wie eine Kanalverkettung ergibt.
Alternativ kann, wie durch 3B gezeigt, eine Tiefen-Mittelfusionsarchitektur eingesetzt werden, um eine Gefahrendetektion durchzuführen. Zum Beispiel an einem ersten Encoder 340 (d. h. RGB-Encoder) und einem zweiten Encoder (342). Es wird in Betracht gezogen, dass der zweite Encoder 342 zusätzlich zu der YOLOv3-Tiny-Architektur (d. h. dem ersten Encoder 340) hinzugefügt werden kann, um dem ersten Encoder 340 eine oder mehrere Einzelkanaldisparitäten als Eingaben bereitzustellen.
Wie gezeigt kann der erste Encoder 340 Schichten 344-364 beinhalten. Es wird in Betracht gezogen, dass die Schichten 344-354 eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen, Max-Pooling-Schichten und Fusionsschichten beinhalten können. Die Schichten 356-358 können eine oder mehrere Faltungsschichten, Batch-Normal-Schichten und Leaky-ReLU-Aktivierungsfunktionen beinhalten. Die Schichten 356-358 können jedoch weder eine oder mehrere Max-Pooling-Schichten noch Fusionsschichten beinhalten. Die Schichten 360 und 364 können eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen und YOLO-Schichten beinhalten. Zuletzt kann die Schicht 362 eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, ReLU-Aktivierungsfunktionen und eine oder mehrere Upsample-Schichten beinhalten. Es wird auch in Betracht gezogen, dass eine oder mehrere Skip-Architekturen eingesetzt werden können. Zum Beispiel kann die Ausgabe von Schicht 352 der Schicht 364 als Eingabe bereitgestellt werden. Ebenso kann die Ausgabe von Schicht 358 der Schicht 362 als Eingabe bereitgestellt werden. 3B veranschaulicht auch die Anzahl von Verkettungen (z. B. 1, 1/2, 1/4 usw.) und die Anzahl von Summierungen nach den Aktivierungen (z. B. 32, 64, 128 usw.).
Der zweite Encoder 342 kann Schichten 366-376 beinhalten. Es wird in Betracht gezogen, dass die Schichten 366-374 eine oder mehrere Faltungsschichten, Batch-Normal-Schichten, Leaky-ReLU-Aktivierungsfunktionen und Max-Pooling-Schichten beinhalten können. Die Schicht 376 kann eine oder mehrere Faltungsschichten, Batch-Normal-Schichten und Leaky-ReLU-Aktivierungsfunktionen beinhalten. Die Schicht 376 kann jedoch weder eine oder mehrere Max-Pooling-Schichten noch Fusionsschichten beinhalten. Es wird auch in Betracht gezogen, dass die Ausgabe der Schichten 366-376 jeweils den Schichten 344-354 als Eingabe bereitgestellt werden kann. Anders ausgedrückt werden nach jeder Aktivierungsschicht für den zweiten Encoder 342 die Werte des zweiten Encoders 342 (d. h. des Tiefenencoders) zu den Werten des ersten Encoders 340 (d. h. des RGB-Encoders) addiert. Es wird auch in Betracht gezogen, dass der zweite Encoder 342 zufällig initialisiert werden kann. Es wird jedoch auch in Betracht gezogen, dass die vortrainierten Gewichtungen (d. h. während eines Trainingsprozesses erstellt) verwendet werden können, um sämtliche der anderen Schichten 344-364 zu initialisieren.
Es wird in Betracht gezogen, dass die YOLOv3-Architektur für Anwendungen mit einem hohen Klassenungleichgewicht nicht stark optimiert sein kann. Es wird auch in Betracht gezogen, dass das Ungleichgewicht „Objekt gegenüber kein Objekt“ mit der Breite/Höhe des Eingabebildes (d. h. des Bildes 302) quadratisch ansteigen kann. Zum Beispiel kann das YOLOv3-Netz bei Anwenden von neun Ankern auf Eingabebilder mit 2048x1024 Pixeln (92160 mögliche Vorhersagen) und nicht 416x416 Pixeln (7605 mögliche Vorhersagen) systematisch eine geringere Konfidenzbewertung im Vergleich zu seiner Wahrscheinlichkeit für eine korrekte Vorhersage vorhersagen. Zur Kompensierung kann der durch 3B veranschaulichte Maschinenlernalgorithmus 200 (d. h. die Tiefen-Mittelfusionsarchitektur) die unten durch Gleichung (1) gezeigte Verlustfunktion einsetzen:
$L_{YoloDepth} = ↵_{xy} * L_{xy} + ↵_{GIoU} * L_{GloU} + ↵_{obj} * L_{obj}$
Wobei L_xy der ursprüngliche YOLOv3-Bounding-Box-Mittenverlust sein kann und L_GIoU der GIoU-Verlust (Generalized Intersection over Union) sein kann. Es wird in Betracht gezogen, dass der Term L_xy möglicherweise nicht erforderlich ist, da die Mitte der Bounding-Box-Vorhersage auch durch den L_GIoU-Term abgedeckt wird. Nichtsdestotrotz kann der Term L_xy mit eingeschlossen werden, um die Anzahl von Epochen, bis der Trainingsprozess konvergiert, zu reduzieren. Der Term L_obj kann auch den binären Kreuzentropieverlust darstellen, gewichtet mit der inversen Klassenfrequenz hoch k₂|0,1|. Der Term k₂|0,1| kann mit eingeschlossen werden, da das Training instabil werden kann, wenn die inverse Klassenfrequenz (k=1) eingesetzt wird. Zur Unterstützung der Anpassung kann der Term $↵ (c) = 1 {/N}_{c}^{k}$
eingesetzt werden, wobei Nc für die Anzahl von Objekt/kein-Objekt-Labels des Mini-Batch stehen kann. Es wird auch in Betracht gezogen, dass für Gleichung (1) die Verlustterme durch den jeweiligen „↵“-Hyperparameter ausgeglichen werden. Es wird auch in Betracht gezogen, dass die durch 3B veranschaulichte Tiefen-Mittelfusionsarchitektur unter Verwendung eines Focal-Loss-Algorithmus eingesetzt werden kann. Für gewisse Klassifikationsanwendungen (z. B. binäre Klassifikation) liefert eine Verwendung des Focal-Loss-Algorithmus jedoch möglicherweise keine verbesserte Leistungsfähigkeit im Vergleich zu dem L_obj-Term gemäß Anwendung durch Gleichung (1).
Zuletzt kann der Maschinenlernalgorithmus 200 einen Multitask-Lernalgorithmus an einem befahrbaren Raum einsetzen, um eine Gefahrendetektion durchzuführen. Ein unterstützender Semantische-Segmentierung-Decoder kann dazu betriebsfähig sein, das Maschinenlernnetz 200 dazu zu bringen, Merkmale für den befahrbaren Raum zu erlernen. Es wird in Betracht gezogen, dass ein SegNet-Decoder (z. B. MergeNet) durch den Multitask-Lernalgorithmus eingesetzt werden kann. Es wird jedoch auch in Betracht gezogen, dass der unterstützende Semantische-Segmentierung-Decoder für den Einsatz des zur Objektdetektion verwendeten Maschinenlernalgorithmus 200 möglicherweise nicht erforderlich ist. Auch kann bei Einsatz eines Multitask-Lernalgorithmus der Term L_sem in den Gesamtkosten der Gleichung (1) mit eingeschlossen werden. Da Merkmale der Straße als relevanter betrachtet werden können, kann der Multitask-Algorithmus ungewichtete Kreuzentropie für die unterstützende Semantische-Segmentierung-Ausgabe verwenden. Dieser Ansatz als Mittelfusion mit unterstützender semantischer Segmentierung
Daher wird in Betracht gezogen, dass zur verbesserten Gefahrendetektion ein Satz von Ensembleverfahren eingesetzt werden kann (d. h. mehrere Lernalgorithmen, die eine bessere Vorhersageleistungsfähigkeit erreichen können als aus irgendeinem einzelnen Lernalgorithmus alleine erhalten werden kann). Verschiedene Gefahrendetektoren, kombiniert zu einer einzigen Vorhersage, wurden offenbart. Das Ensemble von Instanzsegmentierungs- und Objektdetektionsalgorithmen kann zur Bewältigung vieler der möglichen Herausforderungen von Gefahrendetektion verwendet werden. Auch das Ensemble eines rechenaufwendigen Maschinenlernalgorithmus (z. B. Mask R-CNN) mit einem weniger rechenaufwendigen Maschinenlernalgorithmus (z. B. YOLOv3 Tiny) kann zur Gefahrendetektion verwendet werden. Ensembles, die ähnliche Maschinenlernalgorithmen mit verschiedenen „Backbones“ (z. B. verschiedenen Encoderarchitekturen und Vortrainingsdatensätzen) kombinieren, können ebenfalls zur Gefahrendetektion verwendet werden. Zuletzt können auch Ensembles, die ähnliche Maschinenlernalgorithmen, die dazu trainiert sind, eine Straße zu klassifizieren (d. h. ein gutes Verständnis davon, was eine Straße ist), fusionieren, zur Gefahrendetektion verwendet werden.
4 veranschaulicht ein beispielhaftes Rechensystem 440, das dazu verwendet werden kann, Gefahren zu detektieren und einen teilweise autonomen Roboter, z. B. ein teilweise autonomes Fahrzeug 400, zu steuern. Das Rechensystem 440 kann dem in 1 beschriebenen System 100 ähnlich sein. Ein Sensor 430 kann einen oder mehrere Video-/Kamerasensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sensoren und/oder einen oder mehrere Positionssensoren (wie z. B. GPS) umfassen. Einige oder alle dieser Sensoren sind vorzugsweise, jedoch nicht notwendigerweise in dem Fahrzeug 400 integriert.
Alternativ kann der Sensor 430 ein Informationssystem zum Bestimmen eines Zustands des Aktuatorsystems umfassen. Der Sensor 430 kann durch das Rechensystem 440 zu verwendende Sensordaten oder andere Informationen erfassen. Unter Verwendung eines Eingangssignals x kann das System beispielsweise Gefahren in der näheren Umgebung des zumindest teilweise autonomen Roboters detektieren. Ein Ausgangssignal y kann eine Information umfassen, die kennzeichnet, wo sich Objekte in der näheren Umgebung des zumindest teilweise autonomen Roboters befinden. Ein Steuerbefehl A kann dann gemäß dieser Information bestimmt werden, beispielsweise um Kollisionen mit den detektierten Objekten zu vermeiden.
Ein Aktuator 410, der in dem Fahrzeug 400 integriert sein kann, kann durch eine Bremse, ein Antriebssystem, einen Motor, einen Antriebsstrang oder eine Lenkung des Fahrzeugs 400 gegeben sein. Aktuatorsteuerbefehle können derart bestimmt werden, dass der Aktuator (oder die Aktuatoren) 410 derart gesteuert wird/werden, dass das Fahrzeug 400 Kollisionen mit den detektierten Objekten vermeidet. Detektierte Gefahren können auch gemäß dem klassifiziert werden, was sie aus Sicht des Maschinenlernalgorithmus 200 am wahrscheinlichsten sind, z. B. Fußgänger oder Bäume, und Aktuatorsteuerbefehle A können abhängig von der Klassifikation bestimmt werden.
Die hier offenbarten Prozesse, Verfahren oder Algorithmen können lieferbar sein an/implementiert werden durch eine Verarbeitungsvorrichtung, eine Steuerung oder einen Computer, die/der eine beliebige existierende programmierbare elektronische Steuereinheit oder dedizierte elektronische Steuereinheit beinhalten kann. Gleichermaßen können die Prozesse, Verfahren oder Algorithmen als Daten und durch eine Steuerung oder einen Computer ausführbare Anweisungen in vielen Formen gespeichert werden, darunter unter anderem Informationen, die auf nichtbeschreibbaren Speicherungsmedien wie etwa ROM-Vorrichtungen permanent gespeichert sind, und Informationen, die auf beschreibbaren Speicherungsmedien wie etwa Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und anderen magnetischen und optischen Medien änderbar gespeichert sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Softwareobjekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen in Gänze oder teilweise unter Verwendung geeigneter Hardwarekomponenten umgesetzt werden, wie etwa anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsmaschinen, Steuerungen oder anderer Hardwarekomponenten oder -vorrichtungen oder einer Kombination von Hardware-, Software- und Firmwarekomponenten.
Obgleich oben beispielhafte Ausführungsformen beschrieben sind, ist nicht beabsichtigt, dass diese Ausführungsformen alle möglichen durch die Ansprüche eingeschlossenen Formen beschreiben. Die in der Schrift verwendeten Ausdrücke sind Ausdrücke der Beschreibung und nicht der Beschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne von der Idee und dem Schutzumfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht explizit beschrieben oder veranschaulicht sind. Obgleich verschiedene Ausführungsformen als Vorteile ergebend oder gegenüber anderen Ausführungsformen oder Implementierungen im Stand der Technik bezüglich einer oder mehrerer erwünschter Charakteristiken bevorzugt beschrieben worden sein können, erkennen Durchschnittsfachleute auf dem Gebiet, dass ein(e) oder mehrere Merkmale oder Charakteristiken beeinträchtigt werden können, um erwünschte Gesamtsystemattribute zu erzielen, die von der speziellen Anwendung und Implementierung abhängen. Diese Attribute können unter anderem Kosten, Stärke, Haltbarkeit, Lebenszykluskosten, Vermarktungsfähigkeit, Erscheinungsbild, Aufmachung, Größe, Wartbarkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. beinhalten. Von daher liegen, soweit irgendwelche Ausführungsformen als bezüglich einer oder mehreren Charakteristiken weniger wünschenswert als andere Ausführungsformen oder Implementierungen im Stand der Technik beschrieben sind, diese Ausführungsformen nicht außerhalb des Schutzumfangs der Offenbarung und können für gewisse Anwendungen erwünscht sein.

Claims

Verfahren zum Detektieren von Gefahren, das Folgendes umfasst: Empfangen eines Stereobildes mit einem Rot-Kanal, einem Blau-Kanal und einem Grün-Kanal, wobei der Rot-Kanal, der Blau-Kanal und der Grün-Kanal ein 3-Kanal-RGB-Bild erzeugen; und Bestimmen einer oder mehrerer Gefahren in dem Stereobild unter Verwendung eines Ensemblenetzes mit einer oder mehreren Faltungsschichten, Batch-Normal-Schichten, YOLO-Schichten und Upsample-Schichten.
Verfahren nach Anspruch 1, wobei das Ensemblenetz die eine oder die mehreren Gefahren in dem Stereobild durch Verketten eines Tiefenkanals mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmt, wobei durch die Verkettung ein 4-Kanal-RGBD-Bild erzeugt wird.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Erhöhen einer Anzahl von Bits jeweils des Rot-Kanals, des Blau-Kanals und des Grün-Kanals, um ein modifiziertes 3-Kanal-RGB-Bild zu erzeugen; und Überlagern des modifizierten 3-Kanal-RGB-Bildes mit einer Farbkarte eines Tiefenkanals.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: wobei das Ensemblenetz die eine oder die mehreren Gefahren in dem Stereobild durch Extrahieren einer Region von Interesse aus einer Label-Karte und Verketten der Region von Interesse mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmt, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
Verfahren nach Anspruch 1, wobei das Ensemblenetz die eine oder die mehreren Gefahren in dem Stereobild durch Verketten einer Ausgangsklassifikation von einem Semantische-Segmentierung-Algorithmus mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmt, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
Verfahren nach Anspruch 1, wobei das Ensemblenetz ein erstes RGB-Encodernetz und ein zweites Tiefenencodernetz beinhaltet, wobei das erste RGB-Encodernetz mehrere Fusionsschichten aufweist und ein Ausgangswert von mehreren Encodernetzschichten zu den mehreren Fusionsschichten addiert wird.
Verfahren nach Anspruch 1, wobei ein unterstützender Semantische-Segmentierung-Decoder das Ensemblenetz dazu bringt, ein oder mehrere Merkmale für einen befahrbaren Raum zu erlernen, um die eine oder die mehreren Gefahren in dem Stereobild zu bestimmen.
Verfahren nach Anspruch 1, wobei das Ensemblenetz eine YOLOv3-Tiny-Architektur beinhaltet.
Verfahren nach Anspruch 1, wobei das Ensemblenetz eine Mask-R-CNN-Architektur beinhaltet.
System zum Detektieren von Gefahren, das Folgendes umfasst: eine Stereokamera, betriebsfähig zum Empfangen eines Stereobildes mit einem Rot-Kanal, einem Blau-Kanal und einem Grün-Kanal, wobei der Rot-Kanal, der Blau-Kanal und der Grün-Kanal ein 3-Kanal-RGB-Bild erzeugen; und einen Prozessor, betriebsfähig zum Bestimmen einer oder mehrerer Gefahren in dem Stereobild unter Verwendung eines Ensemblenetzes mit einer oder mehreren Faltungsschichten, Batch-Normal-Schichten, YOLO-Schichten und Upsample-Schichten.
System nach Anspruch 10, wobei der Prozessor betriebsfähig ist zum Bestimmen der einen oder der mehreren Gefahren in dem Stereobild durch Verketten eines Tiefenkanals mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal, wobei durch die Verkettung ein 4-Kanal-RGBD-Bild erzeugt wird.
System nach Anspruch 10, wobei der Prozessor zu Folgendem betriebsfähig ist: Erhöhen einer Anzahl von Bits jeweils des Rot-Kanals, des Blau-Kanals und des Grün-Kanals, um ein modifiziertes 3-Kanal-RGB-Bild zu erzeugen; und Überlagern des modifizierten 3-Kanal-RGB-Bildes mit einer Farbkarte eines Tiefenkanals.
System nach Anspruch 10, wobei der Prozessor betriebsfähig ist zum Bestimmen der einen oder der mehreren Gefahren in dem Stereobild durch Extrahieren einer Region von Interesse aus einer Label-Karte und Verketten der Region von Interesse mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
System nach Anspruch 10, wobei der Prozessor betriebsfähig ist zum Bestimmen der einen oder der mehreren Gefahren in dem Stereobild durch Verketten einer Ausgangsklassifikation von einem Semantische-Segmentierung-Algorithmus mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
System nach Anspruch 10, wobei das Ensemblenetz ein erstes RGB-Encodernetz und ein zweites Tiefenencodernetz beinhaltet, wobei das erste RGB-Encodernetz mehrere Fusionsschichten aufweist und ein Ausgangswert von mehreren Encodernetzschichten zu den mehreren Fusionsschichten addiert wird.
System nach Anspruch 10, wobei ein unterstützender Semantische-Segmentierung-Decoder das Ensemblenetz dazu bringt, ein oder mehrere Merkmale für einen befahrbaren Raum zu erlernen, um die eine oder die mehreren Gefahren in dem Stereobild zu bestimmen.
Nichtflüchtiges computerlesbares Medium, betriebsfähig zum Einsetzen eines Ensemblenetzes, wobei das nichtflüchtige computerlesbare Medium darauf gespeicherte computerlesbare Anweisungen aufweist, die dazu betriebsfähig sind, dahingehend ausgeführt zu werden, die folgenden Funktionen durchzuführen: Empfangen eines Stereobildes mit einem Rot-Kanal, einem Blau-Kanal und einem Grün-Kanal, wobei der Rot-Kanal, der Blau-Kanal und der Grün-Kanal ein 3-Kanal-RGB-Bild erzeugen; und Bestimmen einer oder mehrerer Gefahren in dem Stereobild unter Verwendung eines Ensemblenetzes mit einer oder mehreren Faltungsschichten, Batch-Normal-Schichten, YOLO-Schichten und Upsample-Schichten.
Nichtflüchtiges computerlesbares Medium nach Anspruch 17, wobei das Ensemblenetz die eine oder die mehreren Gefahren in dem Stereobild durch Verketten eines Tiefenkanals mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmt, wobei durch die Verkettung ein 4-Kanal-RGBD-Bild erzeugt wird.
Nichtflüchtiges computerlesbares Medium nach Anspruch 17, wobei das Ensemblenetz die eine oder die mehreren Gefahren in dem Stereobild durch Extrahieren einer Region von Interesse aus einer Label-Karte und Verketten der Region von Interesse mit dem Rot-Kanal, dem Blau-Kanal und dem Grün-Kanal bestimmt, wobei durch die Verkettung ein 4-Kanal-Bild erzeugt wird.
Nichtflüchtiges computerlesbares Medium nach Anspruch 17, wobei das Ensemblenetz ein erstes RGB-Encodernetz und ein zweites Tiefenencodernetz beinhaltet, wobei das erste RGB-Encodernetz mehrere Fusionsschichten aufweist und ein Ausgangswert von mehreren Encodernetzschichten zu den mehreren Fusionsschichten addiert wird.