EP4211599A1

EP4211599A1 - Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät

Info

Publication number: EP4211599A1
Application number: EP21773396.3A
Authority: EP
Inventors: Georg Schneider; Falk Heuer
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2020-09-09
Filing date: 2021-09-08
Publication date: 2023-07-19
Also published as: WO2022053505A1; DE102020211280A1

Abstract

Computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem (AD) umfassend die Schritte Eingeben von Daten zumindest eines Sensors (S1, S2, S3) zur Umfelderkennung des Fahrsystems (AD) in ein erstes künstliches neuronales Netzwerk (MEB, MFB), das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale (V1), Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN), wobei die zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN) jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten (V2) und Erhalten der Umfelderkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN), wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem (AD) bestimmt werden (V3).

Description

Computerimplementiertes Verfahren zur Umfelderkennunq für ein automatisiertes Fahrsystem, Maschinenlernverfahren, Steuergerät für ein automatisiertes Fahrsystem und Computerproqramm für ein derartiges Steuergerät

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem, ein Maschinenlernverfahren, ein Steuergerät für ein automatisiertes Fahrsystem und ein Computerprogramm für ein derartiges Steuergerät.

Automatisierte Fahrsysteme, beispielsweise autonome Fahrzeuge, benötigen eine Reihe von Sensoren, um die Umgebung zu erkennen und sich in ihrer Umwelt zurechtzufinden. Ein wichtiger Sensor für ein selbstfahrendes Fahrzeug ist die Kamera. Mit ihr werden beispielsweise Fahrspuren, Fahrzeuge und Hindernisse erkannt und fließen in die Steuerung des autonomen Fahrzeugs ein.

Die Erkennung von Umwelt und Umgebungsobjekten wird gegenwärtig erfolgreich mit künstlichen neuronalen Netzwerken durchgeführt. Jedes Bild, welches von der Kamera aufgenommen wird, wird mit einem neuronalen Netz verarbeitet und nach einem vom Programmierer entwickelten Verfahren analysiert. Dieses Verfahren kann beispielsweise die Erkennung von anderen Verkehrsteilnehmern durchführen, den Verlauf der Straße darstellen oder Fahrbahnmarkierungen erkennen. Ein jedes Erkennungsverfahren hat hier einen anderen Output, das heißt es nimmt die im Bild sichtbaren Umgebungselemente mit anderen Verfahren und unterschiedlichen Zielen wahr.

Um zählbare Objekte wie PKWs, Personen und Fahrräder wahrzunehmen, werden Verfahren verwendet, welche die Objekte mittels rechteckiger 2D oder 3D Boxen als Overlays im aufgenommenen Videobild darstellen. Straßenverläufe und Fahrbahnmarkierungen können mit Linien, beispielsweise in Form von Bildkoordinaten, repräsentiert werden. Unzählbare Objekte wie Gebüsch oder Himmel werden als freie Flächen mittels semantischer Segmentierung repräsentiert, das heißt hier werden die entsprechend erkannten Bildbereiche je Pixel mit einem Klassen kennzeichen oder auch Klassenlabel wie beispielsweise Himmel versehen. Für alle für das autonome Fahren relevanten Umweltobjekte bedarf es einer individuellen Erkennung und Darstellung, um sie für spätere Verarbeitungsschritte des Fahrens verwendbar zu machen.

Die unterschiedlichen Algorithmen, welche für die unterschiedlichen Erkennungen der verschiedenen Typen/Klassen von Objekten des Straßenverkehrs verwendet werden, verarbeiten die Daten von Sensoren wie beispielsweise Kamera oder anderen Sensoren wie beispielsweise Lidar, Radar, akustischen Sensoren, Ultraschallsensoren, olfaktorische Sensoren alle gleichzeitig und in der Regel mit derselben Framerate. Es ist zwingend notwendig, sie zeitlich parallel nebeneinander laufen zu lassen, da beispielsweise Fahrbahnmarkierung und andere Verkehrsteilnehmer zeitgleich erkannt werden müssen, aber nicht auf dieselbe Art und Weise repräsentiert werden können.

Dies gilt sowohl für Assistenzsysteme, welchem dem Fahrer Fahrfunktionen abnehmen oder vereinfachen, genannt advanced driver assistance systems, abgekürzt ADAS, zum Beispiel SAE-Level 2+, als auch für hochautomatisiertes Fahren, in welchem Computer nahezu oder vollständig automatisiert die Fahrzeugkontrolle ausführen, genannt autonomous driving, abgekürzt AD, zum Beispiel SAE-Level 4 oder 5.

In der Bilderkennung werden derzeit neuronale Netze mit sog. Faltungskerneln, genannt convolutional neural network, abgekürzt CNN, verwendet. Ein CNN übernimmt in vielen verwendeten Algorithmen die Aufgabe der Erkennung der unterschiedlichen Objektklassen. Hierbei wird das Bild als Matrix mit Farbwerten verwendet und Filter mit - vom neuronalen Netz gelernten Werten - verarbeiten das Bild zu einem transformierten Bild. Diese Transformation wird in aktuellen neuronalen Netzen zusammen mit weiteren bildverarbeitenden Schritten vielfach wiederholt, sodass ein CNN mit bis zu hunderten von Schichten entstehen kann. Diese nehmen zum Ende des Netzes die Gestalt des Outputs an, beispielsweise die Koordinaten einer rechteckigen Box im Falle von Erkennung von Verkehrsteilnehmern.

Durch die wiederholte Transformation mittels unterschiedlicher Filter entstehen die

Schichten des CNNs. Die Schichten kommen in allen CNNs vor und ähneln sich technisch oft stark. Dies gilt sowohl für die kameragebundene Bilderkennung als auch solche, welche auf anderer Sensorik beruht. Aus diesem Grund bestehen CNNs aus zwei Teilen, dem sogenannte Backbone, welches eine Anordnung von Schichten auf dem Bild/Sensorinput darstellt, und dem Kopf, genannt head, welcher die letzte Schicht des Backbones zum gewünschten Output verarbeitet. Das Backbone enthält einen Großteil der Schichten des Netzes und nimmt entsprechend den größten Zeitraum zum mathematischen Berechnen der Werte in Anspruch.

Für komplexe Systeme im Bereich ADAS oder AD werden viele verschiedene CNNs benötigt, wobei jedes einzelne Netz bereits sehr hohe Berechnungsanforderungen stellt. Die sicherheitstechnische Anforderung, möglichst kurze Reaktionszeiten von autonomen Systemen, zum Beispiel kleiner als 10ms, zu gewähren, tragen zusätzlich zum Berechnungsaufwand bei. Durch die parallele Ausführung der CNNs fallen hohe Kosten an, sowohl für leistungsstarke Hardware als auch für den Stromverbrauch. Aus diesem Grund ist die Reduzierung von Rechen kapazitäten für ein ausgereiftes System höchst relevant.

Backbone-Head Architekturen sind beispielsweise bekannt aus https://ar- xiv.org/pdf/1703.06870.pdf. Dort ist ein Backbone mit zwei stark miteinander verwandten Erkennungsarten, nämlich Box und Maske für ein Objekt, offenbart. Die Segmentierung ist eine binäre Instanzsegmentierung.

Weitere Backbone-Head Architekturen sind beispielsweise in https://ar- xiv.org/pdf/1904.01169.pdf und https://arxiv.org/pdf/1909.03625.pdf offenbart. Allerdings ist hier jeweils keine Vielzahl von Ziel-Erkennungsarten gegeben.

Der Erfindung hat die Aufgabe zugrunde gelegen, ein ganzheitliches Erkennungssystem für den AD/ADAS-Bereich bereitzustellen, welches die Aufgaben multipler Netzen verschmilzt und mit einem einzigen Backbone eine Vielzahl von Ziel-Erkennungsarten Vorhersagen zu können. Die Gegenstände der Ansprüche 1 , 7, 9 und 10 lösen jeweils diese Aufgabe durch ein einzelnes Backbone. Damit fallen ein Großteil von Rechenoperationen und damit Latzenzzeiten weg.

Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem. Das Verfahren umfasst die Schritte

• Eingeben von Daten zumindest eines Sensors zur Umfelderkennung des Fahrsystems in ein erstes künstliches neuronales Netzwerk, das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale,

• Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke, wobei die zweiten künstlichen neuronalen Netzwerke jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten und

• Erhalten der Umfeld erkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke, wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem bestimmt werden

Ein weiterer Aspekt der Erfindung betrifft ein Maschinenlernverfahren für eine Netzwerkarchitektur. Die Netzwerkarchitektur umfasst ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors zur Umfelderkennung eines automatisierten Fahrsystems. Ferner umfasst die Netzwerkarchitektur zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen. Das Verfahren umfasst die Schritte

• Eingeben eines Datenbeispiels in jeweilige dritte künstliche neuronale Netzwerke, die jeweils trainiert sind, für die jeweilige Erkennungsart spezifische Kennzeichen zu erhalten,

• Kennzeichnen des Datenbeispiels mit den Kennzeichen und

• Vorwärtsspeisen der Netzwerkarchitektur mit dem gekennzeichneten Datenbeispiel und Gradienten basiertes Erlernen der zweiten künstlichen neuronalen Netzwerke. Nach einem Aspekt werden die Schritte des Eingebens des Datenbeispiels und des Kennzeichnens mit Kennzeichen wiederholt, bis ein vollständig gekennzeichneter Datensatz erhalten wird. Die Netzwerkarchitektur wird dann mit den gekennzeichneten Daten vorwärtsgespeist.

Ein weiterer Aspekt der Erfindung betrifft ein Steuergerät für ein automatisiertes Fahrsystem. Das Steuergerät umfasst wenigstens eine erste Schnittstelle, über die das Steuergerät Daten zumindest eines Sensors zur Umfelderkennung des Fahrsystems erhält. Ferner umfasst das Steuergerät eine Prozessiereinheit. Die Prozessiereinheit ist ausgeführt, eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus den Daten und zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen auszuführen und eine Umfelderkennung und Regel- und/oder Steuersignale nach einem erfindungsgemäßen Verfahren zu bestimmen. Außerdem umfasst das Steuergerät zweite Schnittstellen, über die das Steuergerät die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems bereitstellt.

Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm für ein erfindungsgemäßes Steuergerät. Das Computerprogramm umfasst Befehle, die bewirken, dass das Steuergerät ein erfindungsgemäßes Verfahren und/oder ein erfindungsgemäßes Maschinenlernverfahren ausführt, wenn das Computerprogramm auf dem Steuergerät läuft.

Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.

Computerimplementiert bedeutet, dass die Schritte des Verfahrens von einer Datenverarbeitungsvorrichtung, beispielsweise einem Computer, einem Rechensystem, einem Rechnernetzwerk, beispielsweise einem Cloud-System, einer Hardware eines Steuergeräts, oder Teilen davon, ausgeführt werden. Automatisierte Fahrsysteme umfassen automatisierte Fahrzeuge, Straßenfahrzeuge, People Mover, Roboter und Drohnen.

Sensoren zur Umfelderkennung umfassen optische Sensoren wie beispielsweise Kamera, umfassend Infrarotkamera, und Lidar, Radarsensoren, Akustiksensoren wie beispielsweise Mikrofone, Ultraschallsensoren und olfaktorische Sensoren, wie beispielsweise elektronische Nasen. Die Sensoren sind beispielsweise an einer Außenhaut und/oder Innenhaut des automatisierten Fahrsystems anordbar. Die Daten der Sensoren umfassen Rohdaten und vorverarbeitete Daten, beispielsweise gefilterte Rohdaten mit verbessertem Signal-Rausch-Verhältnis.

Das erste künstliche neuronale Netzwerk hat die Funktion eines Backbone-Netz- werks. Das erste künstliche neuronale Netzwerk ist erfindungsgemäß ein Backbone- Netzwerk, das eine Vielzahl von Ziel-Erkennungstypen vorhersagt, insbesondere Ziel-Erkennungstypen, die nicht stark miteinander verwandt sind. In diesem Zusammenhang wird das erste künstliche neuronale Netzwerk Multi-Erkennungs-Backbone genannt, abgekürzt MEB. Das Backbone-Netzwerk umfasst Schichten eines Faltungsnetzwerks. Als Backbone-Netzwerk wird beispielsweise ein DLA-34 Netzwerk, siehe https://arxiv.org/pdf/1707.06484.pdf, ResNet, siehe https://ar- xiv.org/pdf/1512.03385.pdf, Inception, siehe https://arxiv.org/pdf/1409.4842.pdf oder MobileNets, siehe https://arxiv.org/pdf/1704.04861.pdf, eingesetzt. Die ersten Schichten oder Layer des Backbone-Netzwerks extrahieren aus den Daten, beispielsweise aus Bilddaten, allgemeingültige Merkmale, die für eine große Anzahl an weiteren Tasks verwendet werden. Die ersten Merkmale umfassen allgemeingültige Merkmale, die für die verschiedenen Erkennungsarten als Input genutzt werden.

Die zweiten künstlichen neuronalen Netzwerke haben die Funktion von Erkennungsköpfen, das heißt sie entsprechen den Heads in einer Backbone-Head-Architektur. Die Erfindung schlägt die Verwendung von mehreren Erkennungsköpfen vor, beispielsweise von vier Erkennungsköpfen. Jeder Erkennungskopf stellt einen Output des Backbones dar. Die Erkennungsköpfe teilen sich das Backbone-Netzwerk. Beispielsweise werden bei einem vortrainierten Backbone-Netzwerk die letzten Schichten des Backbone-Netzwerks durch die Erkennungsköpfe ersetzt. Jeder Erkennungskopf ist auf einen spezifischen Zieltask, beispielsweise auf eine spezifische Erkennungsart, nachtrainiert. Erfindungsgemäß werden bei einem einzigen Backbone mehrere Erkennungsköpfe verwendet, wobei die Erkennungsköpfe gemeinsam trainiert/nachtrainiert werden.

Die zweiten künstlichen neuronalen Netzwerke umfassen beispielsweise Schichten eines Faltungsnetzwerks, rekurrente Schichten oder vollständig verbundene Schichten.

Diese vorgeschlagene Architektur beinhaltet mehrere Vorteile gegenüber der klassischen Herangehensweise mit multiplen Netzen. Neben der Laufzeitverkürzung - und/oder der um ein vielfaches effizienteren Nutzung der Verarbeitungshardware - ist ein System mit mehreren, miteinander inhaltlich verwandten Outputs robuster und präziser. Die Miteinbeziehung aller Sensorik und Repräsentationen der verschiedenen, jedoch miteinander verwandten Aufgabentypen im automobilen Kontext führt folglich auch zu einem sichereren Gesamtsystem. Im Unterschied zu bestehenden Algorithmen mit mehreren Outputs stellt das vorgeschlagene System nicht lediglich eine Vertiefung einer Objektdetektion dar, sondern kann mehrere oder alle notwendigen Erkennungsarten des autonomen Fahrens abdecken und lässt sich auf diese Problemstellung individuell anpassen. In höherliegenden Kontrollebenen eines solchen autonomen Systems umfassend Planung, Trajektorienvorhersage, simultaneous localization and mapping, werden diese Erkennungsarten verwendet und fügen sich zur letztendlichen Aktuatoren-Regelung zusammen.

Das MEB seht in der Domäne automatisiertes Fahren voneinander fremde und allgemein alle Erkennungstypen vorher, beispielsweise Wetter durch Regentropfen im Straßenbild und Spurmarkierungen auf Asphalt.

Die Daten, insbesondere die Bilder einer Kamera, die das erste künstliche neuronale Netzwerk erhält, um die ersten Merkmale zu bestimmen, zeigen den Straßenverkehr. Daher kann ein Wissen über Objekte und die verschiedenen Erkennungsarten in dem ersten künstlichen neuronalen Netzwerk nur gemeinsam gelernt werden, um allgemeingültige Merkmale für alle Erkennungsarten zu erhalten. Andernfalls würde das erste künstliche neuronale Netzwerk bereits aufgrund der Andersartigkeit der Bilddomäne eine Unterscheidung vornehmen. Damit würde aber ein Backbone-Netz- werk mit mehreren Heads nicht lernen. Problematisch ist, dass ein gekennzeichneter oder gelabelter Datensatz in Form von Bild-Zeil-Paaren für ein Training der erfindungsgemäßen Netzwerkarchitektur in der Regel nicht existiert. Beispielsweise umfasst ein Datensatz zum Trainieren einer Wettervorhersage eine große Anzahl an Bild-Ziel-Paaren in der Form (Bild_0, Ziel_0_Wetter), (Bild_1 , Ziel_1_Wetter), (Bild_2, Ziel_2_Wetter), usw. Das MEB soll aber gleichzeitig beispielsweise Wetter und Spurmarkierung erkennen. Für ein entsprechendes Training würde ein Datensatz in der Form (Bild_0, Ziel_0_Wetter, Ziel_O_Spurmarkierung), (Bild_1 , Ziel_1_Wetter, Ziel_1_Spurmarkierung), (Bild_2, Ziel_2_Wetter, Ziel_2_Spurmarkierung), usw. benötigt werden. Bei mehr als zwei Erkennungsarten würde ein solcher Datensatz noch umfangreicher werden. Auch für die Erweiterung um einen Sensor oder eine Erkennungsart müsste der gesamt Datensatz manuell angepasst werden.

Falls aber ein gelabelter Datensatz für ein Training der erfindungsgemäßen Netzwerkarchitektur existiert, wird die erfindungsgemäße Netzwerkarchitektur direkt mit den richtigen Labeln trainiert. Eine Generierung von Pseudolabels ist dann nicht erforderlich.

Das erfindungsgemäße Maschinenlernverfahren ermöglicht das Trainieren des MEB mit mehreren Heads. Maschinelles Lernen ist eine Technologie, die Computern und anderen Datenverarbeitungsvorrichtungen die Ausführung von Aufgaben durch Lernen aus Daten lehrt, anstatt für die Aufgaben programmiert zu werden. Gradientbasiert hat die übliche Bedeutung, dass Trainingsdatenpaare umfassend Daten mit Kennzeichen durch ein künstliches neuronales Netzwerk vorwärtsgespeist werden und in einer Rückwärtsspeisung eine Kostenfunktion des Netzwerks durch Gradientenbildung der Gewichte des Netzwerks minimiert wird.

Gemäß der erfindungsgemäßen Lösung werden dritte künstliche neuronale Netzwerke eingesetzt, die für individuelle spezielle Aufgaben, beispielsweise die verschiedenen Erkennungsarten, trainiert sind. In diesem Kontext werden die dritten künstlichen neuronalen Netzwerke Spezialistennetzwerke genannt. Für derartige spezielle Aufgaben sind öffentlich zugängliche Datensätze, mit denen die Spezialistennetzwerke trainiert werden, verfügbar.

Die spezifischen Kennzeichen, die die dritten künstlichen neuronalen Netzwerke erzeugt, sind sogenannte Pseudolabels. Die Pseudolabels sind Vorhersagen der dritten künstlichen neuronalen Netzwerke auf einem Datensatz. Mit diesen Pseudola- beln wird das erste künstliche neuronale Netzwerk trainiert. Dies entspricht einem sogenannten Transer-Lernen oder Destillation eines Netzwerks. Nach einem Aspekt der Erfindung wird als Pseudolabel die Vorhersage mit der höchsten Wahrscheinlichkeit verwendet. Nach einem weiteren Aspekt der Erfindung wird die gesamte Wahrscheinlichkeitsverteilung aus der Vorhersage des lehrenden Netzwerks, das heißt der dritten künstlichen neuronalen Netzwerke, dem lernenden Netzwerk, das heißt dem ersten künstlichen neuronalen Netzwerk mit den zweiten künstlichen neuronalen Netzwerken, übergeben, was das Training verbessert.

Dadurch, dass jedes Datenbeispiel, oder auch Datensample genannt, für alle Erkennungsarten mit jeweiligen Pseudolabeln gekennzeichnet wird, erzeugen die dritten künstlichen neuronalen Netzwerke alle Erkennungsziele jeweils im selben Datenbeispiel, beispielsweise im selben Bild. Damit wird ein Training des ersten künstlichen neuronalen Netzwerks mit mehreren Erkennungsköpfen ermöglicht. Damit ermöglicht es die Erfindung, für beliebig viele Sensordaten ohne Label Pseudolabel zu generieren. Durch das Bündeln des Wissens individueller Spezialisten netzwerke auf neue Sensordaten werden vollständig gekennzeichnete komplexe Datensätze für das Training der erfindungsgemäßen Netzwerkarchitektur bereitgestellt.

Die dritten künstlichen neuronalen Netzwerke umfassen beispielsweise Schichten eines Faltungsnetzwerks, rekurrente Schichten oder vollständig verbundene Schichten.

Die Befehle des Computerprogramms umfassen Software- und/oder Hardwarebefehle. Das Computerprogramm wird beispielsweise in einen Speicher des erfindungsgemäßen Steuergeräts geladen oder ist in diesem Speicher bereits geladen. Nach einem weiteren Aspekt der Erfindung wird das erfindungsgemäße Computerprogramm auf einer Hardware und/oder Software einer Cloud-Einrichtung ausgeführt.

Das Computerprogramm wird beispielsweise durch einen computerlesbaren Datenträger oder ein Datenträgersignal in den Speicher geladen. Damit wird die Erfindung auch als eine Aftermarket-Lösung realisiert.

Das Steuergerät, im Englischen electronic control unit, abgekürzt ECU, genannt, bereitet Eingangssignale auf, verarbeitet diese mittels einer elektronischen Schaltung und stellt Logik- und/oder Leistungspegel als Regel- und/oder Steuersignale bereit. Das erfindungsgemäße Steuergerät ist skalierbar für assistiertes Fahren bis hin zu vollautomatisiertes/autonomes/fahrerloses Fahren.

Die Prozessiereinheit umfasst beispielsweise eine programmierbare elektronische Schaltung. Nach einem Aspekt der Erfindung ist die Prozessiereinheit oder das Steuergerät als ein System-on-Chip ausgeführt.

Nach einem weiteren Aspekt betrifft die Erfindung ein Computersystem mit Eingabe und Ausgabe, einer Prozessiereinheit und Speichervorrichtungen. Das Computersystem ist ausgeführt, die erfindungsgemäße Netzwerkarchitektur auszuführen. Damit stellt die Erfindung eine Verwendung der erfindungsgemäßen Netzwerkarchitektur auch in Bereichen außerhalb des automatisierten Fahrens bereit.

Die vorgeschlagene Netzwerkarchitektur ist an spezielle Hardware anpassbar, indem beispielsweise Hauptspeicher des Steuergeräts, CPU- und GPU Kerne, Zwischenspeicher, und Takt für die Architekturwahl beachtet werden. Durch das erfindungsgemäße geteilte Backbone-Netzwerk ist die verbaute Hardware besser nutzbar.

In einer Ausgestaltung des computerimplementierten Verfahrens bestimmt das erste künstliche neuronale Netzwerk die ersten Merkmale für die Erkennungsarten Objektdetektion, semantische Segmentierung, Verkehrszeichenerkennung und Fahrbahnmarkierungserkennung bestimmt. Ein erstes der zweiten künstlichen neuronalen Netzwerke erkennt Objekte. Ein zweites der zweiten künstlichen neuronalen Netzwerke zerlegt Bereiche der Daten in semantisch zusammengehörende Einheiten. Ein drittes der zweiten künstlichen neuronalen Netzwerke erkennt Verkehrszeichen. Ein viertes der zweiten künstlichen neuronalen Netzwerke erkennt Fahrbahnmarkierungen.

Das erste der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Objektdetektion. Die Objektdetektion umfasst

• 2D Detektion ausgehend von sog. zweidimensionalen Bounding Boxen, beispielsweise im Videobild einer Kamera,

• 3D Detektion ausgehend von dreidimensionalen Bounding Boxen, umfassend Distanz- und Rotationsschätzung,

• Annotationsschätzung für die erkannten Objekte wie zum Beispiel bei Fußgängern den Fußgängerzustand, beispielsweise laufend, stehen, oder bei Fahrzeugen den Fahrzeugzustand, beispielsweise parkend, angehalten, blinkend.

Das zweite der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für semantische Segmentierung. Die semantische Segmentierung umfasst

• Holistische Segmentierung für alle sichtbaren Klassen,

• Segmentierung eines jeden Objektes einer Detektion individuell, das heißt Instanzsegmentierung, und in Kombination mit nicht-zählbaren Objekten, sogenannte panoptische Segmentierung,

• Segmentierung von Fahrbahnmarkierung oder Stäben für eine nachfolgende Linien-Regression eines Fahrspurbereiches.

Das dritte der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Verkehrszeichen. Diese Erkennung umfasst

• Klassifikation und/oder Lokalisation des Verkehrszeichens,

• Lage und Zuordnung zu Fahrspuren und Verkehrsteilnehmern,

Das vierte der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Fahrbahnmarkierungen. Diese Erkennung umfasst Anfitten, Extrapolierens von geeigneten Modellen wie Klothoiden, Polynomen, Splines und dergleichen. Nach einem Aspekt der Erfindung werden weitere der zweiten künstlichen neuronalen Netzwerke eingesetzt für die folgenden Aufgaben:

• Erkennung von Lichtquellen bei Nacht und deren Klassifikation zu Objekten wie anderen Verkehrsteilnehmern, Straßenlaternen,

• niederdimensionale Klassifizierung, Regression und Vorhersage, beispielsweise für den Egopfad, das heißt eine Vorhersage, welchen Pfad das eigene Fahrzeug nehmen wird, Freespace, das heißt einen für das eigene Fahrzeug sicher zu befahrenden Bereich, Wetterannotation der direkten Umgebung, Failsafe-Annotation der unterschiedlichen messenden Sensoren, beispielsweise Blendungseffekte der Videosensorik durch eine tiefstehende Sonne.

Nach einem Aspekt der Erfindung erfolgt eine holistische Segmentierung, insbesondere keine binäre Segmentierung, beispielsweise in Fußgänger und Nicht-Fußgänger. Die Segmentierung erfolgt auf dem gesamten Bild für alle Klassen.

In einer weiteren Ausgestaltung wird bei der Ausführung jedes der zweiten künstlichen neuronalen Netzwerke auf eine jeweils vorgegebenen Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks zugegriffen. Damit wird ermöglicht, dass jedes der zweiten künstlichen neuronalen Netzwerke mit einer es konfigurierten Anzahl von Schichten des Backbones transformiert wird, bevor die für die entsprechende Erkennungsart notwendigen individuellen letzten Verarbeitungsschritte vorgenommen werden, beispielsweise non-maximum Suppression oder Softmax. Damit wird eine individuell adjustierbare Spaltungstiefe erreicht.

In einer weiteren Ausgestaltung werden in das erste künstliche neuronale Netzwerk Daten mehrerer Sensoren zur Umfelderkennung des Fahrsystems eingegeben und fusioniert, um die ersten Merkmale zu erhalten. Die mehreren Sensoren sind nach einem Aspekt der Erfindung Sensoren einer Sensortechnologie oder nach einem weiteren Aspekt Sensoren unterschiedlicher Sensortechnologien. Damit werden verschiedenen Sensordaten in das MEB eingespeist und es somit zu einem Multi-Fusi- ons-Backbone, abgekürzt MFB, erweitert. Für den Input können Sensoren wie Kamera, Lidar und Radar als auch weitere mögliche Sensorik, beispielsweise akustische oder olfaktorische Sensoren, mit einbezogen. Damit ergeben sich beispielsweise folgende Anwendungsfelder:

• Aufspannen einer 3D Umfeldwahrnehmung mittels Kamera, Radar und Lidar; o Detektion von 3D Bounding Boxen, inkl. Distanz- und Rotationsschätzung, o Tracking und von Objekten, o Trajektorienvorhersage von Verkehrsteilnehmern,

• Objekte im Soundbereich; o Klassifikation, Ortung und Tracking von Geräuschquellen, zum Beispiel Martinshörner von Einsatzfahrzeugen und deren Weg,

• Objekte im Geruchsbereich; o Klassifikation, Ortung und Tracking von Geruchsquellen, zum Beispiel Brandherde außerhalb und innerhalb des Fahrzeugs.

In einer weiteren Ausgestaltung werden vor Eingabe die Daten jeweils vorverarbeitet. Beispielsweise wird der Input eines jeden Sensors mit einer individuellen Anzahl von Schichten eines Faltungsnetzwerks transformiert, bevor er in das geteilte MFB Backbone mit einfließt.

In einer weiteren Ausgestaltung werden eine Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks, auf die die zweiten künstlichen neuronalen Netzwerke jeweils zugreifen, und/oder eine Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks, in denen die ersten Merkmale bestimmt werden, basierend auf den Daten des zumindest einen Sensors zur Umfelderkennung und den Erkennungsarten bestimmt.

Eine individuelle Verarbeitungstiefe für In- und Outputs wird dadurch ermöglicht, indem diese nach unterschiedlicher Anzahl von Schichten in das Backbone einfließen. Die Schichttiefe wird nach einem Aspekt der Erfindung neben einer Architekturwahl basierend auf empirischen Befunden mittels Neural Architecture Search, abgekürzt NAS, ermöglicht. Im NAS wird die Struktur eines künstlichen neuronalen Netzwerks nicht vom Programmierer gewählt, sondern die Anzahl und Typen von Schichten werden neben den Parametern des Netzes auch gelernt.

Nach einem Aspekt der Erfindung wird die Anzahl der Schichten basierend auf den Daten von Kamera, Radar, Lidar und weiteren Sensoren bestimmt. Damit wird ein Sensor individuell adjustierbare Fusionstiefe erreicht.

In einer beispielhaft möglichen Ausgestaltung des Maschinenlernverfahrens wird ein Datenbeispiel in ein erstes der dritten künstlichen neuronalen Netzwerke eingegeben. Das erste der dritten künstlichen neuronalen Netzwerke ist trainiert, Objekte zu erkennen. Als Ausgabe des ersten der dritten künstlichen neuronalen Netzwerke werden dreidimensionale Begrenzungsbereiche um die erkannten Objekte als Kennzeichen für die Objekte erhalten. Ferner wird das Datenbeispiel in ein zweites der dritten künstlichen neuronalen Netzwerke eingegeben. Das zweite der dritten künstlichen neuronalen Netzwerke ist trainiert, Bereiche der Daten in semantisch zusammengehörende Einheiten zu zerlegen. Als Ausgabe des zweiten der dritten künstlichen neuronalen Netzwerke werden Segmentierungen als Kennzeichen für die semantisch zusammengehörende Einheiten erhalten. Außerdem wird das Datenbeispiel in ein drittes der dritten künstlichen neuronalen Netzwerke eingegeben. Das dritte der dritten künstlichen neuronalen Netzwerke ist trainiert, Verkehrszeichen zu erkennen. Als Ausgabe des dritten der dritten künstlichen neuronalen Netzwerke werden zweidimensionale Begrenzungsbereiche um die erkannten Verkehrszeichen als Kennzeichen für die Verkehrszeichen erhalten. Des Weiteren wird das Datenbeispiel in ein viertes der dritten künstlichen neuronalen Netzwerke eingegeben. Das vierte der dritten künstlichen neuronalen Netzwerke ist trainiert, Fahrbahnmarkierungen zu erkennen. Als Ausgabe des vierten der dritten künstlichen neuronalen Netzwerke werden Koordinaten der Fahrbahnmarkierungen als Kennzeichen für die Fahrbahnmarkierungen erhalten. Damit werden Pseudolabel von verschiedenen Erkennungstypen umfassend Objektdetektion, semantische Segmentierung, Verkehrszeichenerkennung und Fahrbahnmarkierungserkennung auf einem Datensample und damit ein vollständig komplex gelabelter Datensatz für das Training des MEB oder MFB erzeugt. In einer weiteren Ausgestaltung umfasst das Computerprogramm erste Softwarecodeabschnitte, durch die ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors zur Umfelderkennung eines automatisierten Fahrsystems programmiert ist. Ferner umfasst das Computerprogramm zweite Softwarecodeabschnitte, durch die zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen programmiert sind.

Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

Fig. 1 eine schematische Darstellung einer Umfelderkennung,

Fig. 2 eine reale Darstellung einer Umfelderkennung,

Fig. 3 eine Darstellung einer semantischen Segmentierung,

Fig. 4 eine schematische Darstellung einer individuellen Erkennung und Darstellung von Umfeldobjekten,

Fig. 5 eine schematische Darstellung einer Faltungsmatrix,

Fig. 6 ein Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur,

Fig. 7 ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur,

Fig. 8 ein Ausführungsbeispiel zur Generierung von Pseudolabeln,

Fig. 9 ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur, Fig. 10 ein Ausführungsbeispiel von Klassifikationsergebnissen der erfindungsgemäßen Netzwerkarchitektur und

Fig. 11 ein Ausführungsbeispiel eines erfindungsgemäßen Steuergeräts.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.

Fig. 1 zeigt schematisch, wie mit einem Sensor S1 in Form einer Kamera ein automatisiertes Fahrsystem AD Fahrbahnmarkierungen Bahn, Objekte Obj, Verkehrszeichen Ver und zusammengehörende Bildbereiche Seg erkennt. Diese Erkennung fließen über das in Fig. 1 gezeigte Steuergerät ECU in die Steuerung des automatisierten Fahrsystems AD ein.

Fig. 2 zeigt die Erkennung an einem Beispiel in Aktion.

Fig. 3 zeigt die Erkennungsart einer holistische semantische Segmentierung Seg. Die entsprechend erkannten Bildbereiche werden je Pixel mit einem Klassenlabel wie zum Beispiel Fahrzeug, Fahrbahn, Person und Verkehrslichter versehen.

Fig. 4 zeigt, wie aus den einzelnen Erkennungsarten Bahn, Obj, Ver, Seg jeweilige Kennzeichen K_Bahn für Fahrbahnmarkierung, K_Obj für Objekterkennung, K_Ver für Verkehrszeichenerkennung und K_Seg für semantisch zusammengehörende Einheiten dargestellt werden. K_Bahn basieren beispielsweise auf Koordinaten von Fahrbahnmarkierungen, K_Obj auf 3D Boxen, K_Ver auf 2D Boxen und K_Seg auf zusammengehöhrenden Pixelbereichen. Damit wird deutlich, dass ein jedes Erkennungsverfahren einen anderen Output hat, das heißt es nimmt die im Bild sichtbaren Umfeldelemente mit anderen Verfahren und unterschiedlichen Zielen wahr.

Fig. 5 zeigt einen Ausschnitt aus einem Faltungsnetzwerk CNN mit einem Input In, beispielsweise einer Matrix, deren Einträge Helligkeitswerte von Sensorpixeln darstellen. Der Input wird mit einer Faltungsmatrix Kern wie dargestellt transformiert, um einen Output Out zu erhalten. Die Faltungsmatrix ist beispielsweise ein Sobelfilter, mit dem in einem Bild Kanten detektiert werden. Nach einem weiteren Aspekt der Erfindung ist die Faltungsmatrix ein Glättungsfilter, ein Relieffilter, ein Laplacefilter oder ein Schärfungsfilter. In der Regel werden die Gewichte des Filters frei, anhand der Daten, gelernt. Im Rahmen der Erfindung liegt es, aus vordesignten Filtern zu wählen, oder einer Kombination von erlernten und vordesignten Filtern. Nach einem weiteren Aspekt werden auf den Input mehrere dieser Faltungsmatrizen angewendet und es werden entsprechend mehrere Outputs erhalten, ein Output je Faltungsmatrix.

Fig. 6 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens und die erfindungsgemäße Netzwerkarchitektur. In einem ersten Verfahrensschritt V1 werden Daten der Kamera S1 in das erste künstliche neuronale Netzwerk MEB eingegeben. Das MEB bestimmt erste Merkmale. Die ersten Merkmale werden in zweite künstliche neuronale Netzwerke Headl bis Head4 eingegeben und in Abhängigkeit einer jeweiligen Erkennungsart in einem zweiten Verfahrensschritt V2 verarbeitet. Beispielsweise werden hier vier von den zweiten künstlichen neuronalen Netzwerken verwendet. Die Erfindung betrifft ferner die Verwendung von mehreren, N, zweiten künstlichen neuronalen Netzwerken Headl , Head2 HeadN. In dem zweiten Verfahrensschritt V2 macht der erste Erkennungskopf Headl Vorhersagen umfassend Klassifikation, Lokalisation und Prädiktion von Trajektorien und fittet und extrapoliert Fahrbahnmarkierungen. Der zweite Erkennungskopf Head2 bestimmt 3D Boxen um Objekte zur Objektdetektion. Der dritte Erkennungskopf Head3 bestimmt 2D Boxen um Verkehrszeichen zur Verkehrszeichenerkennung. Der vierte Erkennungskopf Head4 segmentiert semantisch Bildbereiche. Die einzelnen Erkennungsköpfe Headl - Head4 werden mit einer für sie konfigurierten Anzahl von Schichten Lay aus dem MEB transformiert. In einem dritten Verfahrensschritt V3 wird die Umfelderkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke Headl - Head4 erhalten. Basierend auf der Umfelderkennung bestimmt das Steuergerät ECU Regel- und/oder Steuersignale für das Fahrsystem AD.

Fig. 7 zeigt die Erweiterung des MEB zu dem MFB. Beispielsweise werden Daten von Kamera S1 , Radar S2 und Lidar S3 fusioniert. Im Rahmen der Erfindung liegt auch die Verwendung einer beliebigen Anzahl von Sensoren. Dabei wird der Input eines jeden Sensors mit einer individuellen Anzahl von Schichten Lay eines Faltungsnetzwerks transformiert.

Fig. 8 zeigt die Erzeugung von Pseudolabels K_Bahn, K_Obj, K_Ver und K_Seg mittels dritten künstlichen neuronalen Netzwerken KNN3_1 - KNN3_4 in einem ersten Verfahrensschritt M1 des erfindungsgemäßen Maschinenlernverfahrens. Erfindungsgemäß sind mehrere, N, der dritten künstlichen neuronalen Netzwerke vorgesehen, abhängig beispielsweise von der Anzahl der verschiedenen Erkennungsarten. In einem zweiten Verfahrensschritt M2 wird ein Datenbeispiel Samp, beispielsweise ein Bild der Kamera S1 , mit allen Pseudolabeln gekennzeichnet. Mit diesem gekennzeichneten Datenbeispiel Samp wird in einem dritten Verfahrensschritt M3 das MEB oder das MFB trainiert.

Fig. 9 zeigt eine weitere Ausführungsform der Erfindung. Es wird ein MEB mit zwei Outputs umgesetzt, welches eine Neuerung gegenüber dem Stand der Technik darstellt. Hierfür wird ein DLA-34 Netzwerk als Backbone verwendet. DLA-34 ist ein Faltungsnetzwerk, welches Layer in Gruppen an verschiedenen Stellen splittet und verbindet, um ein optimales Verhältnis von Performanz zur Laufzeitauslastung zu ermöglichen. Es macht sich hierbei die Layerstruktur verschiedener aktueller Faltungs- netzwerk-Backbones zunutze, wie beispielsweise dem Konkatinieren von Layern aus ResNet, dem Verwenden von Batchnorm, usw. Während DLA-34 ein sehr effizientes Faltungsnetzwerk ist, wird es hier lediglich als Beispiel verwendet und ließe sich auch mit einem weniger performanten Faltungsnetzwerk substituieren. Als Output gibt es einen 2D Detektionskopf basierend auf CenterNet sowie einen Kopf für semantische Segmentierung basierend auf FON. Trainiert wird mit dem MS-Coco 2017 Datensatz, welcher aus Bildern und Labeln für Instanzsegmentierung besteht. Diese werden für die Aufgabe der parallelen Erkennung von semantischer Segmentierung und Objekt- Detektion umdesigned.

Das Resultat der in Fig. 9 gezeigten Ausführungsform zeigt Fig. 10. Als Resultat ist erkennbar, dass das MEB im Stande ist, mit beiden Köpfen die gewünschten Erkennungen vorzunehmen. Fig. 10 zeigt ein Inferenzsample des Netztes mit Overlay der zwei Outputs semantischer Segmentierung und Detektion. In Fig. 10 ist auch erkennbar, dass das Netz semantische Segmentierung, also das Pixel-Labeling der Personen für die Personenklasse (allgemein und nicht boxspezifisch) vornimmt. Die Performanz der Objekt-Detektion ist mit 36.7% mAP im Multitask Training gegenüber 36.3% mAP für reine Objekt-Detektion in diesem Setup leicht besser. mAP bedeutet mean average precision. Die zusätzliche Ausgabe der semantischen Segmentierung nimmt im empirischen Test lediglich 25% der Laufzeit des Netzes ein, gegenüber 100% bei einem vergleichbaren zusätzlichen Segmentierungsnetz. Damit ist die erhöht Effizienz der vorgestellten Erfindung gezeigt.

Das in Fig. 11 gezeigte Steuergerät ECU erhält über erste Schnittstellen INT 1 Daten der Kamera S1. Eine Prozessiereinheit P, beispielsweise eine CPU, GPU oder FPGA, führt das MEB oder MFB aus und erhält die Umfelderkennung. Basierend auf der Umfelderkennung bestimmt die Prozessiereinheit P Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems AD. Über zweite Schnittstellen INT 2 stellt das Steuergerät ECU die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems AD bereit.

Bezuqszeichen

AD automatisiertes Fahrsystem

MEB erstes künstliches neuronales Netzwerk, Multi-Erkennungs-Backbone MFB erstes künstliches neuronales Netzwerk, Multi-Fusions-Backbone Headl-HeadN zweite künstliche neuronale Netzwerke, Köpfe

KNN3_1-KNN3_4 dritte künstliche neuronale Netzwerke

Obj Objektdetektion

Seg semantische Segmentierung

Ver Verkehrszeichenerkennung

Bahn Fahrbahnmarkierungserkennung

K_Obj Kennzeichen für Objekte

K_Seg Kennzeichen für semantisch zusammengehörende Einheiten

K_Ver Kennzeichen für Verkehrszeichen

K_Bahn Kennzeichen für Fahrbahnmarkierungen

Lay Schicht künstliches neuronales Netzwerk

Samp gekennzeichnetes Datenbeispiel

ECU Steuergerät

INT1 erste Schnittstellen

INT2 zweite Schnittstellen

P Prozessiereinheit

In Input

Out Output

Kern Faltungsmatrix

CNN Faltungsnetzwerk

DLA-34 Deep Layer Aggregation Netzwerk

CenterNet künstliches neuronales Netzwerk

FCN Fully Convolutional Network

V1 -V3 Verfahrensschritte

M1-M3 Verfahrensschritte

Claims

Patentansprüche

1 . Computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem (AD) umfassend die Schritte

• Eingeben von Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) in ein erstes künstliches neuronales Netzwerk (MEB, MFB), das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale (V1 ),

• Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke (Headl - HeadN), wobei die zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten (V2) und

• Erhalten der Umfeld erkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke (Headl - HeadN), wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem (AD) bestimmt werden (V3).

2. Verfahren nach Anspruch 1 , wobei

• das erste künstliche neuronale Netzwerk (MEB, MFB) die ersten Merkmale für die Erkennungsarten Objektdetektion (Obj), semantische Segmentierung (Seg), Verkehrszeichenerkennung (Ver) und Fahrbahnmarkierungserkennung (Bahn) bestimmt,

• ein erstes der zweiten künstlichen neuronalen Netzwerke (Head2) Objekte erkennt,

• ein zweites der zweiten künstlichen neuronalen Netzwerke (Head4) Bereiche der Daten in semantisch zusammengehörende Einheiten zerlegt,

• ein drittes der zweiten künstlichen neuronalen Netzwerke (Head3) Verkehrszeichen erkennt und

• ein viertes der zweiten künstlichen neuronalen Netzwerke (Headl ) Fahrbahnmarkierungen erkennt.

3. Verfahren nach Anspruch 1 oder 2, wobei bei der Ausführung jedes der zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) auf eine jeweils vorgegebenen Anzahl von Schichten (Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB) zugegriffen wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei in das erste künstliche neuronale Netzwerk (MFB) Daten mehrerer Sensoren (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) eingegeben und fusioniert werden, um die ersten Merkmale zu erhalten.

5. Verfahren nach Anspruch 4, wobei vor Eingabe die Daten jeweils vorverarbeitet werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, wobei eine Anzahl von Schich- ten(Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB), auf die die zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) jeweils zugreifen, und/oder eine Anzahl von Schichten (Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB), in denen die ersten Merkmale bestimmt werden, basierend auf den Daten des zumindest einen Sensors (S1 , S2, S3) zur Umfelderkennung und den Erkennungsarten bestimmt werden.

7. Maschinenlernverfahren für eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk (MEB, MFB) zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung eines automatisierten Fahrsystems (AD) und zweite künstliche neuronale Netzwerke (Headl - Head4) zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen, das Verfahren umfassend die Schritte

• Eingeben eines Datenbeispiels in jeweilige dritte künstliche neuronale Netzwerke (KNN3_1 - KNN3_4), die jeweils trainiert sind, für die jeweilige Erkennungsart spezifische Kennzeichen (K_Obj, K_Seg, K_Ver, K_Bahn) zu erzeugen (M1 ), • Kennzeichnen des Datenbeispiels mit den Kennzeichen (K_Obj, K_Seg, K_Ver, K_Bahn) (M2) und

• Vorwärtsspeisen der Netzwerkarchitektur mit dem gekennzeichneten Datenbeispiel (Samp) und Gradienten basiertes Erlernen der zweiten künstlichen neuronalen Netzwerke (Headl - Head4) (M3). aschinenlernverfahren nach Anspruch 7, wobei

• ein Datenbeispiel in ein erstes der dritten künstlichen neuronalen Netzwerken (KNN3_1 ) eingegeben wird, das trainiert ist, Objekte zu erkennen, und dreidimensionale Begrenzungsbereiche um die erkannten Objekte als Kennzeichen (K_Obj) für die Objekte erhalten werden,

• das Datenbeispiel in ein zweites der dritten künstlichen neuronalen Netzwerke (KNN3_2) eingegeben wird, das trainiert ist, Bereiche der Daten in semantisch zusammengehörende Einheiten zu zerlegen, und Segmentierungen als Kennzeichen (K_Seg) für die semantisch zusammengehörende Einheiten erhalten werden,

• das Datenbeispiel in ein drittes der dritten künstlichen neuronalen Netzwerke (KNN3_3) eingegeben wird, das trainiert ist, Verkehrszeichen zu erkennen, und zweidimensionale Begrenzungsbereiche um die erkannten Verkehrszeichen als Kennzeichen (K_Ver) für die Verkehrszeichen erhalten werden,

• das Datenbeispiel in ein viertes der dritten künstlichen neuronalen Netzwerke (KNN3_4) eingegeben wird, das trainiert ist, Fahrbahnmarkierungen zu erkennen, und Koordinaten der Fahrbahnmarkierungen als Kennzeichen (K_Bahn) für die Fahrbahnmarkierungen erhalten werden. teuergerät (ECU) für ein automatisiertes Fahrsystem (AD) umfassend

• wenigstens eine erste Schnittstelle (INT 1 ), über die das Steuergerät (ECU) Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) erhält,

• eine Prozessiereinheit (P), die ausgeführt ist, eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk (MEB, MFB) zum Bestimmen von ersten Merkmalen aus den Daten und zweite künstliche neuronale Netzwerke (Headl - HeadN) zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen auszuführen und eine Umfelderkennung und Regel- und/oder Steuersignale nach einem der Verfahren der Ansprüche 1 bis 6 zu bestimmen, und

• zweite Schnittstellen (INT2), über die das Steuergerät (ECU) die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems (AD) bereitstellt.

10. Computerprogramm für ein Steuergerät (ECU) nach Anspruch 9 umfassend Befehle, die bewirken, dass das Steuergerät (ECU) ein Verfahren nach einem der Ansprüche 1 bis 6 und/oder ein Verfahren nach einem der Ansprüche 7 oder 8 ausführt, wenn das Computerprogramm auf dem Steuergerät (ECU) läuft.