DE102019124419A1

DE102019124419A1 - SCENE CLASSIFICATION

Info

Publication number: DE102019124419A1
Application number: DE102019124419.6A
Authority: DE
Inventors: Athmanarayanan LAKSHMI NARAYANAN; Isht Dwivedi; Behzad Dariush
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-09-14
Filing date: 2019-09-11
Publication date: 2020-03-19

Abstract

Gemäß einem Gesichtspunkt kann eine Szenenklassifizierung bereitgestellt werden. Eine Bilderfassungsvorrichtung kann eine Reihe von Einzelbildern einer Umgebung von einem fahrenden Fahrzeug aus erfassen. Ein Zeitklassifizierer kann Einzelbilder mit zeitlichen Vorhersagen klassifizieren und eine Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf einem Szenenklassifizierungsmodell zugeordnet sind. Der Zeitklassifizierer kann eine Klassifizierung von Einzelbildern basierend auf einem neuronalen Faltungsnetzwerk (CNN), einem Long Short-Term Memory- (LSTM-) Netzwerk und einer vollständig verbundenen Schicht durchführen. Der Szenenklassifizierer kann Einzelbilder basierend auf einem CNN, einem Global Average Pooling und einer vollständig verbundenen Schicht klassifizieren und eine zugehörige Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell und entsprechenden zeitlichen Vorhersagen erzeugen. Eine Steuerung eines Fahrzeugs kann Fahrzeugsensoren oder Fahrzeugsysteme des Fahrzeugs basierend auf der Szenenvorhersage aktivieren oder deaktivieren.In one aspect, scene classification can be provided. An image capturing device can capture a series of individual images of an environment from a moving vehicle. A time classifier can classify individual images with temporal predictions and generate a series of individual images that are assigned to the respective temporal predictions based on a scene classification model. The time classifier can classify frames based on a neural convolution network (CNN), a long short term memory (LSTM) network and a fully connected layer. The scene classifier can classify individual images based on a CNN, a global average pooling and a completely connected layer and generate an associated scene prediction based on the scene classification model and corresponding temporal predictions. A controller of a vehicle can activate or deactivate vehicle sensors or vehicle systems of the vehicle based on the scene prediction.

Description

HINTERGRUNDBACKGROUND

In Fahrszenarien beinhaltet das Verstehen einer Szene seitens eines Menschen die Beantwortung von Fragen über einen Ort, Umgebungsbedingungen und das Verhalten der Verkehrsteilnehmer. Interessanterweise sind Menschen in der Lage, eine dynamische Szenenerkennung schnell und präzise durchzuführen und dabei nur wenig auf Objekte in der Szene zu achten. Menschliche Fahrer haben die bemerkenswerte Fähigkeit, komplexe Verkehrsszenen zu klassifizieren und ihr Fahrverhalten an ihre Umgebung anzupassen. In diesem Zusammenhang kann die automatisierte dynamische Szenenerkennung auf menschlichem Niveau ein attraktives anzustrebendes Ziel sein.In driving scenarios, a person's understanding of a scene involves answering questions about a location, environmental conditions and the behavior of road users. Interestingly, people are able to perform dynamic scene recognition quickly and precisely, paying little attention to objects in the scene. Human drivers have the remarkable ability to classify complex traffic scenes and adapt their driving behavior to their environment. In this context, automated dynamic scene recognition on a human level can be an attractive target.

KURZE BESCHREIBUNGSHORT DESCRIPTION

Gemäß einem Gesichtspunkt kann ein System zur Szenenklassifizierung eine Bilderfassungsvorrichtung, ein Bildsegmentierungsmodul, einen Bildmaskierer, einen Zeitklassifizierer und einen Szenenklassifizierer einschließen. Die Bilderfassungsvorrichtung kann eine erste Reihe von Einzelbildern einer Umgebung von einem fahrenden Fahrzeug aus erfassen. Das Bildsegmentierungsmodul kann einen oder mehrere Verkehrsteilnehmer in der Umgebung basierend auf einem ersten neuronalen Faltungsnetzwerk (CNN) identifizieren. Der Bildmaskierer kann eine zweite Reihe von Einzelbildern erzeugen, indem er einen oder mehrere der Verkehrsteilnehmer aus der Umgebung maskiert. Der Zeitklassifizierer kann ein oder mehrere Einzelbilder der zweiten Reihe von Einzelbildern mit einer von zwei oder mehreren zeitlichen Vorhersagen klassifizieren und eine dritte Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf einem Szenenklassifizierungsmodell zugeordnet sind. Der Zeitklassifizierer kann die Klassifizierung basierend auf einem zweiten CNN, einem Long Short-Term Memory- (LSTM-) Netzwerk und einer ersten vollständig verbundenen Schicht durchführen. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern basierend auf einem dritten CNN, einem Global Average Pooling und einer zweiten vollständig verbundenen Schicht klassifizieren und eine zugeordnete Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell und entsprechenden zeitlichen Vorhersagen erzeugen.In one aspect, a scene classification system may include an image capture device, an image segmentation module, an image masker, a time classifier, and a scene classifier. The image capturing device can capture a first series of individual images of an environment from a moving vehicle. The image segmentation module can identify one or more road users in the environment based on a first neural convolution network (CNN). The image masker can generate a second series of individual images by masking one or more of the road users from the surroundings. The time classifier can classify one or more frames of the second series of frames with one of two or more temporal predictions and generate a third series of frames that are associated with the respective temporal predictions based on a scene classification model. The time classifier can perform the classification based on a second CNN, a long short term memory (LSTM) network and a first fully connected layer. The scene classifier can classify one or more individual images of the third series of individual images based on a third CNN, a global average pooling and a second completely connected layer and generate an associated scene prediction based on the scene classification model and corresponding temporal predictions.

Die zwei oder mehr zeitlichen Vorhersagen können eine Annotation „Annähern“, eine Annotation „Einfahren“ und eine Annotation „Passieren“ einschließen. Das erste CNN, das zweite CNN oder das dritte CNN kann ein Deepnet-CNN oder ein ResNet 50-CNN sein. Das System zur Szenenklassifizierung kann in einem Fahrzeug implementiert sein und das Fahrzeug kann eine Steuerung einschließen, die einen oder mehrere Sensoren oder ein oder mehrere Fahrzeugsysteme des Fahrzeugs basierend auf der Szenenvorhersage aktiviert oder deaktiviert.The two or more temporal predictions can include an approaching annotation, a retracting annotation, and a passing annotation. The first CNN, the second CNN or the third CNN can be a Deepnet-CNN or a ResNet 50-CNN. The scene classification system may be implemented in a vehicle and the vehicle may include a controller that enables or disables one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern mit einer Wetterklassifizierung einschließlich klar, sonnig, Schneefall, regnerisch, bewölkt oder neblig klassifizieren, und die Steuerung kann einen oder mehrere der Sensoren oder eines oder mehrere der Fahrzeugsysteme des Fahrzeugs basierend auf der Wetterklassifizierung aktivieren oder deaktivieren. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern mit einer Straßenoberflächenklassifizierung einschließlich trocken, nass oder Schnee klassifizieren und die Steuerung kann einen oder mehrere der Sensoren oder eines oder mehrere der Fahrzeugsysteme des Fahrzeugs basierend auf der Straßenoberflächenklassifizierung aktivieren oder deaktivieren. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern mit einer Umgebungsklassifizierung einschließlich städtisch, Auf- / Abfahrt, Autobahn oder lokal klassifizieren und die Steuerung kann einen oder mehrere der Sensoren oder eines oder mehrere der Fahrzeugsysteme des Fahrzeugs basierend auf der Umgebungsklassifizierung aktivieren oder deaktivieren.The scene classifier may classify one or more frames of the third series of frames with a weather classification including clear, sunny, snow, rainy, cloudy, or foggy, and the controller may classify one or more of the sensors or one or more of the vehicle's vehicle systems based on the weather classification activate or deactivate. The scene classifier may classify one or more frames of the third series of frames with a road surface classification including dry, wet, or snow, and the controller may activate or deactivate one or more of the sensors or one or more of the vehicle's vehicle systems based on the road surface classification. The scene classifier may classify one or more frames of the third series of frames with an environmental classification including urban, up / down, highway or local, and the controller may activate one or more of the sensors or one or more of the vehicle's vehicle systems based on the environmental classification or deactivate.

Eines oder mehrere der Fahrzeugsysteme können ein LIDAR-System oder ein Radarsystem sein. Die Steuerung kann das LIDAR-System oder Radarsystem, basierend darauf, dass die Szenenvorhersage ein Tunnel ist, deaktivieren. Die Steuerung kann die Suche nach Ampeln, Stoppschildern, Haltelinien, basierend darauf, dass die Szenenvorhersage eine Kreuzung ist, priorisieren.One or more of the vehicle systems can be a LIDAR system or a radar system. The controller can disable the LIDAR system or radar system based on the scene prediction being a tunnel. The controller can prioritize the search for traffic lights, stop signs, stop lines based on the fact that the scene prediction is an intersection.

Gemäß einem Gesichtspunkt kann ein mit einem System zur Szenenklassifizierung ausgerüstetes Fahrzeug eine Bilderfassungsvorrichtung, ein Bildsegmentierungsmodul, einen Bildmaskierer, einen Zeitklassifizierer, einen Szenenklassifizierer und eine Steuerung einschließen. Die Bilderfassungsvorrichtung kann eine erste Reihe von Einzelbildern einer Umgebung von einem fahrenden Fahrzeug aus erfassen. Das Bildsegmentierungsmodul kann einen oder mehrere Verkehrsteilnehmer in der Umgebung basierend auf einem ersten neuronalen Faltungsnetzwerk (CNN) identifizieren. Der Bildmaskierer kann eine zweite Reihe von Einzelbildern erzeugen, indem er einen oder mehrere der Verkehrsteilnehmer aus der Umgebung maskiert. Der Zeitklassifizierer kann ein oder mehrere Einzelbilder der zweiten Reihe von Einzelbildern mit einer von zwei oder mehreren zeitlichen Vorhersagen klassifizieren und eine dritte Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf einem Szenenklassifizierungsmodell zugeordnet sind. Der Zeitklassifizierer kann die Klassifizierung basierend auf einem zweiten CNN, einem Long Short-Term Memory- (LSTM-) Netzwerk und einer ersten vollständig verbundenen Schicht durchführen. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern basierend auf einem dritten CNN, einem Global Average Pooling und einer zweiten vollständig verbundenen Schicht klassifizieren und eine zugeordnete Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell und entsprechenden zeitlichen Vorhersagen erzeugen. Die Steuerung kann einen oder mehrere Sensoren oder ein oder mehrere Fahrzeugsysteme des Fahrzeugs basierend auf der Szenenvorhersage aktivieren oder deaktivieren.In one aspect, a vehicle equipped with a scene classification system may include an image capture device, an image segmentation module, an image masker, a time classifier, a scene classifier, and a controller. The image capturing device can capture a first series of individual images of an environment from a moving vehicle. The image segmentation module can identify one or more road users in the environment based on a first neural convolution network (CNN). The image masker can generate a second series of individual images by masking one or more of the road users from the surroundings. The time classifier can classify one or more frames of the second series of frames with one of two or more temporal predictions and generate a third series of frames that are associated with the respective temporal predictions based on a scene classification model. The Time classifier can perform the classification based on a second CNN, a Long Short Term Memory (LSTM) network and a first fully connected layer. The scene classifier can classify one or more individual images of the third series of individual images based on a third CNN, a global average pooling and a second completely connected layer and generate an associated scene prediction based on the scene classification model and corresponding temporal predictions. The controller may activate or deactivate one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

Die zwei oder mehr zeitlichen Vorhersagen können eine Annotation „Annähern“, eine Annotation „Einfahren“ und eine Annotation „Passieren“ einschließen. Das erste CNN, das zweite CNN oder das dritte CNN kann ein Deepnet-CNN oder ein ResNet 50-CNN sein. Eines oder mehrere der Fahrzeugsysteme können ein LIDAR-System oder ein Radarsystem sein, und die Steuerung kann das LIDAR-System oder Radarsystem, basierend darauf, dass die Szenenvorhersage ein Tunnel ist, deaktivieren.The two or more temporal predictions can include an approaching annotation, a retracting annotation, and a passing annotation. The first CNN, the second CNN or the third CNN can be a Deepnet-CNN or a ResNet 50-CNN. One or more of the vehicle systems may be a LIDAR system or a radar system, and the controller may deactivate the LIDAR system or radar system based on the scene prediction being a tunnel.

Gemäß einem Gesichtspunkt kann ein System zur Szenenklassifizierung eine Bilderfassungsvorrichtung, einen Zeitklassifizierer und einen Szenenklassifizierer einschließen. Die Bilderfassungsvorrichtung kann eine erste Reihe von Einzelbildern einer Umgebung von einem fahrenden Fahrzeug aus erfassen. Der Zeitklassifizierer kann ein oder mehrere Einzelbilder der ersten Reihe von Einzelbildern mit einer von zwei oder mehreren zeitlichen Vorhersagen klassifizieren und eine zweite Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf einem Szenenklassifizierungsmodell zugeordnet sind. Der Zeitklassifizierer kann eine Klassifizierung basierend auf einem neuronalen Faltungsnetzwerk (CNN), einem Long Short-Term Memory- (LSTM-) Netzwerk und einer ersten vollständig verbundenen Schicht durchführen. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der zweiten Reihe von Einzelbildern basierend auf einem zweiten CNN, einem Global Average Pooling und einer zweiten vollständig verbundenen Schicht klassifizieren und eine zugeordnete Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell und entsprechenden zeitlichen Vorhersagen erzeugen.In one aspect, a scene classification system may include an image capture device, a time classifier, and a scene classifier. The image capturing device can capture a first series of individual images of an environment from a moving vehicle. The time classifier may classify one or more frames of the first series of frames with one of two or more temporal predictions and generate a second series of frames that are associated with the respective temporal predictions based on a scene classification model. The time classifier can perform a classification based on a neural convolution network (CNN), a long short term memory (LSTM) network and a first fully connected layer. The scene classifier can classify one or more individual images of the second series of individual images based on a second CNN, a global average pooling and a second completely connected layer and generate an associated scene prediction based on the scene classification model and corresponding temporal predictions.

Die zwei oder mehr zeitlichen Vorhersagen können eine Annotation „Annähern“, eine Annotation „Einfahren“ und eine Annotation „Passieren“ einschließen. Das CNN oder das zweite CNN kann ein ResNet 50-CNN sein. Das System zur Szenenklassifizierung kann in einem Fahrzeug implementiert sein und das Fahrzeug kann eine Steuerung einschließen, die einen oder mehrere Sensoren oder ein oder mehrere Fahrzeugsysteme des Fahrzeugs basierend auf der Szenenvorhersage aktiviert oder deaktiviert.The two or more temporal predictions can include an approaching annotation, a retracting annotation, and a passing annotation. The CNN or the second CNN can be a ResNet 50-CNN. The scene classification system may be implemented in a vehicle and the vehicle may include a controller that enables or disables one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern mit einer Wetterklassifizierung einschließlich klar, sonnig, Schneefall, regnerisch, bedeckt oder neblig klassifizieren. Die Steuerung kann einen oder mehrere der Sensoren oder eines oder mehrere der Fahrzeugsysteme des Fahrzeugs basierend auf der Wetterklassifizierung aktivieren oder deaktivieren. Der Szenenklassifizierer kann ein oder mehrere Einzelbilder der dritten Reihe von Einzelbildern mit einer Straßenoberflächenklassifizierung einschließlich trocken, nass oder Schnee klassifizieren. Die Steuerung kann einen oder mehrere der Sensoren oder eines oder mehrere der Fahrzeugsysteme des Fahrzeugs basierend auf der Straßenoberflächenklassifizierung aktivieren oder deaktivieren.The scene classifier can classify one or more frames of the third series of frames with a weather classification including clear, sunny, snow, rainy, overcast or foggy. The controller may activate or deactivate one or more of the sensors or one or more of the vehicle systems of the vehicle based on the weather classification. The scene classifier can classify one or more frames of the third series of frames with a road surface classification including dry, wet, or snow. The controller may activate or deactivate one or more of the sensors or one or more of the vehicle systems of the vehicle based on the road surface classification.

FigurenlisteFigure list

1 10 is a component diagram of a scene classification system according to one aspect.
2nd 10 is a flowchart of a scene classification method according to one aspect.
3rd FIG. 10 is an exemplary diagram of temporal predictions or predictions associated with a scene classification, according to one aspect.
The 4A - 4B are exemplary diagrams of temporal predictions or predictions associated with different scene classifications, according to one aspect.
5 FIG. 4 is an exemplary diagram of an architecture used to train the scene classification system of 1 assigned.
6 FIG. 4 is an illustration of an exemplary computer readable medium or device including processor executable instructions configured to embody one or more of the provisions set forth herein in one aspect.
7 FIG. 4 is an illustration of an exemplary computing environment in which one or more of the provisions set forth herein are implemented in accordance with one aspect of the invention.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Die folgenden Begriffe werden während der gesamten Offenbarung verwendet, deren Definitionen hierin enthalten sind, um das Verständnis eines oder mehrerer Gesichtspunkte der Offenbarung zu erleichtern.The following terms are used throughout the disclosure; Definitions are included herein to facilitate understanding of one or more aspects of the disclosure.

Ein „Prozessor“, wie hierin verwendet, verarbeitet Signale und führt allgemeine Berechnungen und arithmetische Funktionen aus. Von dem Prozessor verarbeitete Signale können digitale Signale, Datensignale, Computeranweisungen, Prozessorbefehle, Nachrichten, ein Bit, einen Bitstrom oder andere Mittel einschließen, die empfangen, übertragen und/oder erkannt werden können. Im Allgemeinen kann der Prozessor eine Vielzahl verschiedener Prozessoren sein, einschließlich mehrerer Einzel- und Mehrkernprozessoren und Coprozessoren sowie anderer Architekturen mit mehreren Einzel- und Mehrkernprozessoren und Coprozessoren. Der Prozessor kann verschiedene Module einschließen, um verschiedene Funktionen auszuführen.A "processor", as used herein, processes signals and performs general calculations and arithmetic functions. Signals processed by the processor may include digital signals, data signals, computer instructions, processor instructions, messages, a bit, a bit stream, or other means that can be received, transmitted, and / or recognized. In general, the processor can be a variety of different processors, including multiple single and multi-core processors and coprocessors, and other architectures with multiple single and multi-core processors and coprocessors. The processor can include different modules to perform different functions.

Ein „Speicher“, wie hierin verwendet, kann flüchtige Speicher und/oder nichtflüchtige Speicher einschließen. Nichtflüchtige Speicher können beispielsweise ROM (Nur-Lese-Speicher), PROM (programmierbarer Nur-Lese-Speicher), EPROM (löschbares PROM) und EEPROM (elektrisch löschbares PROM) einschließen. Flüchtiger Speicher kann zum Beispiel RAM (Direktzugriffsspeicher), synchrones RAM (SRAM), dynamisches RAM (DRAM), synchrones DRAM (SDRAM), SDRAM mit doppelter Datenrate (DDRSDRAM) und direktes RAM-Bus-RAM (DRRAM) einschließen. Der Speicher kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist. "Memory" as used herein can include volatile memory and / or non-volatile memory. Non-volatile memories can include, for example, ROM (read only memory), PROM (programmable read only memory), EPROM (erasable PROM) and EEPROM (electrically erasable PROM). Volatile memory may include, for example, RAM (Random Access Memory), synchronous RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM) and direct RAM bus RAM (DRRAM). The memory can store an operating system that controls or allocates resources to a computing device.

Eine „Platte“ oder ein „Laufwerk“, wie hierin verwendet, kann ein Magnetplattenlaufwerk, ein Solid-State-Laufwerk, ein Diskettenlaufwerk, ein Bandlaufwerk, ein Zip-Laufwerk, eine Flash-Memory-Card und/oder ein Speicherstick sein. Ferner kann die Platte eine CD-ROM (Compact Disk ROM), ein beschreibbares CD-Laufwerk (CD-R-Laufwerk), ein wiederbeschreibbares CD-Laufwerk (CD-RW-Laufwerk) und/oder ein digitales Video-ROM-Laufwerk (DVD-ROM) sein. Die Platte kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist.A "disk" or "drive" as used herein can be a magnetic disk drive, a solid state drive, a floppy disk drive, a tape drive, a zip drive, a flash memory card and / or a memory stick. Furthermore, the disc can be a CD-ROM (Compact Disk ROM), a writable CD drive (CD-R drive), a rewritable CD drive (CD-RW drive) and / or a digital video ROM drive ( DVD-ROM). The disk can store an operating system that controls or allocates resources to a computing device.

Ein „Bus“, wie hierin verwendet, bezieht sich auf eine verschaltete Architektur, die funktionell mit anderen Computerkomponenten innerhalb eines Computers oder zwischen Computern verbunden ist. Der Bus kann Daten zwischen den Computerkomponenten übertragen. Der Bus kann unter anderem ein Speicherbus, eine Speichersteuerung, ein Peripheriebus, ein externer Bus, ein Kreuzschienenschalter und/oder ein lokaler Bus sein. Der Bus kann auch ein Fahrzeugbus sein, der Komponenten innerhalb eines Fahrzeugs unter Verwendung von Protokollen wie beispielsweise Media Oriented Systems Transport (MOST), Controller Area Network (CAN) und Local Interconnect Network (LIN) miteinander verbindet.A "bus" as used herein refers to an interconnected architecture that is operatively connected to other computer components within or between computers. The bus can transfer data between the computer components. The bus can be, inter alia, a memory bus, a memory controller, a peripheral bus, an external bus, a crossbar switch and / or a local bus. The bus can also be a vehicle bus that connects components within a vehicle using protocols such as Media Oriented Systems Transport (MOST), Controller Area Network (CAN) and Local Interconnect Network (LIN).

Eine „Datenbank“, wie hierin verwendet, kann sich auf eine Tabelle, einen Satz von Tabellen und einen Satz von Datenspeichern (z. B. Platten) und/oder Verfahren zum Zugreifen auf und/oder Manipulieren dieser Datenspeicher beziehen.A "database" as used herein may refer to a table, a set of tables, and a set of data stores (e.g., disks) and / or methods of accessing and / or manipulating these data stores.

Eine „betriebsfähige Verbindung“ oder eine Verbindung, über die Einheiten „betriebsfähig verbunden“ sind, ist eine Verbindung in der Signale, physikalische Kommunikationen und/oder logische Kommunikationen gesendet und/oder empfangen werden können. Eine betriebsfähige Verbindung kann eine drahtlose Schnittstelle, eine physikalische Schnittstelle, eine Datenschnittstelle und/oder eine elektrische Schnittstelle einschließen.An "operational link" or a link through which units are "operationally connected" is a link in which signals, physical communications and / or logical communications can be sent and / or received. An operational connection can include a wireless interface, a physical interface, a data interface, and / or an electrical interface.

Eine „Computerkommunikation“, wie hierin verwendet, bezieht sich auf eine Kommunikation zwischen zwei oder mehr Rechenvorrichtungen (z. B. Computer, persönlicher digitaler Assistent, Mobiltelefon, Netzwerkvorrichtung) und kann beispielsweise eine Netzwerkübertragung, eine Dateiübertragung, eine Applet-Übertragung, eine E-Mail, eine Hypertext Transfer Protocol (HTTP)-Übertragung und so weiter sein. Eine Computerkommunikation kann zum Beispiel unter anderen über ein drahtloses System (z. B., IEEE 802,11), ein Ethernetsystem (z. B., IEEE 802,3), ein Token-Ring-System (z. B., IEEE 802,5), ein lokales Netzwerk (LAN), ein Wide Area-Netzwerk (WAN), ein Punkt-zu-Punkt-System, ein System zum Umschalten von Schaltungen, ein Paket-Schaltsystem erfolgen."Computer communication," as used herein, refers to communication between two or more computing devices (e.g., computer, personal digital assistant, cell phone, network device) and may include, for example, network transfer, file transfer, applet transfer, E -Mail, a Hypertext Transfer Protocol (HTTP) transfer and so on. For example, computer communication may be via a wireless system (e.g., IEEE 802.11), an Ethernet system (e.g., IEEE 802.3), a token ring system (e.g., IEEE) 802.5), a local area network (LAN), a wide area network (WAN), a point-to-point system, a system for switching circuits, a packet switching system.

Ein „Fahrzeug“, wie hierin verwendet, bezeichnet jedes fahrende Fahrzeug, das in der Lage ist, einen oder mehrere menschliche Insassen zu befördern, und das durch eine beliebige Form von Energie angetrieben wird. Der Begriff „Fahrzeug“ schließt Autos, Lastwagen, Lieferwagen, Minivans, SUVs, Motorräder, Roller, Boote, Wassermotorräder und Flugzeuge ein. In einigen Szenarien schließt ein Kraftfahrzeug eine oder mehrere Motoren ein. Ferner kann sich der Begriff „Fahrzeug“ auf ein Elektrofahrzeug (EV) beziehen, das ganz oder teilweise durch einen oder mehrere elektrische Motoren angetrieben wird, die durch eine elektrische Batterie angetrieben werden. Das EV kann batteriebetriebene Elektrofahrzeuge (BEV) und Plug-in Hybrid-Elektrofahrzeuge (PHEV) einschließen. Außerdem kann sich der Begriff „Fahrzeug“ auf ein autonomes Fahrzeug und/oder selbstfahrendes Fahrzeug beziehen, das durch eine beliebige Form von Energie angetrieben wird. Das autonome Fahrzeug kann einen oder mehrere menschliche Insassen befördern oder nicht.A "vehicle" as used herein means any moving vehicle that is capable of carrying one or more human occupants and that is powered by any form of energy. The term "vehicle" includes cars, trucks, vans, minivans, SUVs, motorcycles, scooters, boats, water scooters and planes. In some scenarios, an automobile includes one or more engines. The term “vehicle” may also refer to an electric vehicle (EV) that is wholly or partially powered by one or more electric motors that are powered by an electric battery. The EV can include battery-powered electric vehicles (BEV) and plug-in hybrid electric vehicles (PHEV). In addition, the term “vehicle” may refer to an autonomous vehicle and / or self-driving vehicle that is powered by any form of energy. The autonomous vehicle may or may not carry one or more human occupants.

Ein „Fahrzeugsystem“, wie hierin verwendet, kann ein beliebiges automatisches oder manuelles System sein, das verwendet werden kann, um das Fahrzeug, das Fahren, und/oder die Sicherheit zu verbessern. Beispielhafte Fahrzeugsysteme schließen unter anderem ein autonomes Antriebssystem, ein elektronisches Stabilitätskontrollsystem, ein Antiblockiersystem, ein Bremsassistenzsystem, ein automatisches Bremsvorfüllsystem, ein Niedriggeschwindigkeitsfolgesystem, ein Tempomatsystem, ein Kollisionswarnsystem, ein Kollisionsminderungsbremssystem, ein automatisches Tempomatsystem, ein Spurhaltewarnsystem, ein Toter-Winkel-Anzeigesystem, einen Spurhalteassistenten, ein Navigationssystem, ein Getriebesystem, Bremspedalsysteme, ein elektronisches Servolenkungssystem, visuelle Vorrichtungen (z. B. Kamerasysteme, Näherungssensorsysteme), ein Klimasteuersystem, ein elektronisches Vorspannungssystem, ein Überwachungssystem, ein Passagiererkennungssystem, ein Fahrzeugaufhängungssystem, ein Fahrzeugsitzkonfigurationssystem, ein Fahrzeugkabinenbeleuchtungssystem, ein Audiosystem und ein Sensorsystem ein. A "vehicle system" as used herein can be any automatic or manual system that can be used to improve the vehicle, driving, and / or safety. Exemplary vehicle systems include, among other things, an autonomous drive system, an electronic stability control system, an anti-lock braking system, a brake assistance system, an automatic brake priming system, a low-speed following system, a cruise control system, a collision warning system, a collision reduction braking system, an automatic cruise control system, a lane departure warning system, a blind spot, an angle display system Lane departure warning systems, a navigation system, a transmission system, brake pedal systems, an electronic power steering system, visual devices (e.g. camera systems, proximity sensor systems), a climate control system, an electronic preload system, a monitoring system, a passenger detection system, a vehicle suspension system, a vehicle seat configuration system, a vehicle cabin lighting system, an audio cabin lighting system and a sensor system.

Die hierin erörterten Gesichtspunkte können im Kontext eines nichtflüchtigen computerlesbaren Speichermediums beschrieben und implementiert werden, das computerausführbare Anweisungen speichert. Nichtflüchtige computerlesbare Speichermedien umfassen Computerspeichermedien und Kommunikationsmedien. Zum Beispiel Flash-Speicherlaufwerke, DVDs (Digital Versatile Discs), CDs (Compact Discs), Disketten und Bandkassetten. Nichtflüchtige computerlesbare Speichermedien können flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zum Speichern von Informationen wie beispielsweise computerlesbaren Anweisungen, Datenstrukturen, Modulen oder anderen Daten implementiert sind.The issues discussed herein can be described and implemented in the context of a non-volatile computer readable storage medium that stores computer executable instructions. Non-volatile computer readable storage media include computer storage media and communication media. For example, flash memory drives, DVDs (Digital Versatile Discs), CDs (Compact Discs), floppy disks and tape cartridges. Non-volatile computer readable storage media may include volatile and non-volatile, removable and non-removable media implemented in any method or technology for storing information such as computer readable instructions, data structures, modules, or other data.

1 ist ein Komponentendiagramm eines Systems zur Szenenklassifizierung 100 gemäß einem Gesichtspunkt. Ein Fahrzeug 10 kann mit einem System zur Szenenklassifizierung 100 ausgestattet sein. Das System zur Szenenklassifizierung 100 kann eine Bilderfassungsvorrichtung 102, einen Prozessor 104, einen Speicher 106, ein Speicherlaufwerk 108, eine Kommunikationsschnittstelle 110, ein Bildsegmentierungsmodul 112, einen Bildmaskierer 114, einen Convolutor 116, einen Zeitklassifizierer 118 und einen Szenenklassifizierer 120 einschließen. Das Fahrzeug 10 kann eine Steuerung, einen oder mehrere Fahrzeugsensoren und ein oder mehrere Fahrzeugsysteme 190 einschließen. Die Kommunikationsschnittstelle 110 kann mit einem Server 130 in Verbindung stehen. Der Server 130 kann eine Szenenklassifizierungsdatenbank einschließen, die eine Ground Truth-Bildsequenz 132 und ein Szenenklassifizierungsmodell 134 oder ein Szenenklassifizierungs-Richtliniennetzwerk einschließen kann. Gemäß einem Gesichtspunkt können ein oder mehrere vom Bildsegmentierungsmodul 112, Bildmaskierer 114, Convolutor 116, Zeitklassifizierer 118 und/oder Szenenklassifizierer 120 über den Prozessor 104, den Speicher 106, das Speicherlaufwerk 108 usw. implementiert werden. 1 Figure 3 is a component diagram of a scene classification system 100 according to one point of view. A vehicle 10th can with a scene classification system 100 be equipped. The scene classification system 100 can be an image capture device 102 , a processor 104 , a memory 106 , a storage drive 108 , a communication interface 110 , an image segmentation module 112 , an image masker 114 , a convolutor 116 , a time classifier 118 and a scene classifier 120 lock in. The vehicle 10th can be a controller, one or more vehicle sensors and one or more vehicle systems 190 lock in. The communication interface 110 can with a server 130 stay in contact. The server 130 may include a scene classification database that contains a ground truth image sequence 132 and a scene classification model 134 or may include a scene classification policy network. In one aspect, one or more of the image segmentation module 112 , Image masker 114 , Convolutor 116 , Time classifier 118 and / or scene classifiers 120 via the processor 104 , the store 106 , the storage drive 108 etc. are implemented.

Ground TruthGround truth

Gemäß einem Gesichtspunkt kann die Ground Truth-Bildsequenz 132 eine Reihe von einem oder mehreren Einzelbildern einschließen, die einem sich bewegenden Fahrzeug zugeordnet sind und während einer Trainingsphase gesammelt werden können. Es ist zu beachten, dass einige Szenen statisch sein können, während andere Szenen oder Orte dynamisch sein können. So kann beispielsweise eine Kreuzung eine statische Szene oder ein statischer Ort sein, während eine Baustelle dynamisch sein kann, insofern als die Baustelle durch Verkehrskegel definiert werden kann, die Größe, Form, Aussehen und/oder Lage zwischen den Baustellen und zwischen verschiedenen Tagen oder Zeiten ändern können.In one aspect, the Ground Truth image sequence 132 include a series of one or more still images associated with a moving vehicle that can be collected during a training phase. Note that some scenes can be static while other scenes or locations can be dynamic. For example, an intersection can be a static scene or location, while a construction site can be dynamic, in that the construction site can be defined by traffic cones, the size, shape, appearance and / or location between the construction sites and between different days or times can change.

Jedes der ein oder mehreren Einzelbilder der Ground Truth-Bildsequenz 132 kann mit einem oder mehreren Labels, wie beispielsweise einem Zeitklassifizierungs-Label, einem Wetterklassifizierungs-Label, einem Straßenoberflächenklassifizierungs-Label, einem Umgebungsklassifizierungs-Label und einem Szenenklassifizierungs-Label, versehen sein (z. B. mit manuellen Annotationen und Angabe der Ground Truth). Beispiele für Zeitklassifizierungs-Label können Hintergrund, Annähern, Einfahren, Passieren usw. einschließen. Mit anderen Worten werden die Einzelbilder zeitlich mit feinkörnigen Labels wie beispielsweise „Annähern“ (A), „Einfahren“ (E) und „Passieren“ (P) versehen, abhängig vom Blickwinkel und/oder der Position des Trainingsfahrzeugs in Bezug auf die Position zum Ort von Interesse oder der Szene. Die Klassifizierungs-Label können hierarchisch und kausal organisiert sein. So kann beispielsweise oben die Umgebung annotiert werden, gefolgt von den Szenenklassen auf der mittleren Ebene und den feinkörnigen Annotationen wie beispielsweise „Annähern, Einfahren und Passieren“ auf der unteren Ebene.Each of the one or more individual images of the Ground Truth image sequence 132 can be provided with one or more labels, such as a time classification label, a weather classification label, a road surface classification label, an environmental classification label and a scene classification label (e.g. with manual annotations and indication of ground truth) . Examples of time classification labels can include background, approaching, entering, passing, etc. In other words, the individual images are temporally provided with fine-grained labels such as “approaching” (A), “entering” (E) and “passing” (P), depending on the viewing angle and / or the position of the training vehicle in relation to the position at Place of interest or the scene. The classification labels can be organized hierarchically and causally. For example, the surroundings can be annotated above, followed by the scene classes on the middle level and the fine-grained annotations such as "Approaching, entering and passing" on the lower level.

Beispiele für Wetterklassifizierungs-Label können klar, sonnig, Schneefall, regnerisch, bedeckt, bewölkt, neblig, hell, dunkel usw. einschließen. Beispiele für Straßenoberflächenklassifizierungs-Labels können trocken, nass, Schnee, regnerisch, verdeckt (z. B. einige Verkehrsmarkierungen nicht sichtbar), Schlamm usw. einschließen. Beispiele für Umgebungsklassifizierungs-Label können Umgebungstypen wie beispielsweise städtisch, ländlich, Vorort-, Auf-/Abfahrt, Autobahn, lokal (z. B. Nachbarschaft, Wohngegend, Schule) usw. einschließen. Auf-/Abfahrten können beispielsweise eine Verbindung zwischen zwei Autobahnen oder zwischen einer Autobahn und einem anderen Straßentyp sein. Beispiele für Szenenklassifizierungs-Label können Orte auf Straßen, eine Baustelle, eine Kreuzung (z. B. eine x-Wege-Kreuzung, wie beispielsweise eine Drei-, Vier-, Fünf-Wege-Kreuzung, usw.), eine Brücke, eine Überführung, einen Bahnübergang, einen Tunnel, eine Spurzusammenführung, eine Spurabzweigung, ein Zebrastreifen, usw. einschließen. Einige Szenenklassifizierungen können lediglich Zeitklassifizierungs-Labels „Annähern“ und „Passieren“ zugeordnet sein, während andere den Labels „Annähern, Einfahren und Passieren“ zugeordnet sein können. Die Straßenoberflächenklassifizierung und die Wetterklassifizierungen können sich gegenseitig ausschließen. Mit anderen Worten kann es auf der Straße nass sein, aber das Wetter kann zum Beispiel sonnig sein.Examples of weather classification labels can include clear, sunny, snow, rainy, overcast, cloudy, foggy, light, dark, etc. Examples of road surface classification labels can include dry, wet, snow, rainy, covered (e.g. some traffic markings not visible), mud, etc. Examples of environmental classification labels can Include environment types such as urban, rural, suburban, on / off, highway, local (e.g. neighborhood, neighborhood, school), etc. Driveways / exits can be, for example, a connection between two motorways or between a motorway and another type of road. Examples of scene classification labels can be locations on streets, a construction site, an intersection (e.g. an x-way intersection, such as a three, four, five-way intersection, etc.), a bridge, a Include overpass, level crossing, tunnel, lane junction, lane junction, zebra crossing, etc. Some scene classifications can only be assigned to the "Approach" and "Pass" time classification labels, while others can be assigned to the "Approach, enter and pass" labels. The road surface classification and the weather classifications can be mutually exclusive. In other words, it can be wet on the street, but the weather can be sunny, for example.

Diese annotierte Ground Truth-Bildsequenz 132 kann verwendet werden, um ein Modell zu trainieren, das in der Szenenklassifizierungsdatenbank beispielsweise als Szenenklassifizierungsmodell 134 oder als Szenenklassifizierungs-Richtliniennetzwerk gespeichert werden kann. Da die Ground Truth-Bildsequenz 132 beliebig annotiert wird (z. B. kann dies manuell durch Menschen durchgeführt werden), kann das Szenenklassifizierungsmodell 134 durch maschinelles Lernen, Tiefenlernen oder einen anderen Typ von künstlicher Intelligenztechnik trainiert werden. In diesem Zusammenhang kann das System für die Szenenklassifizierung 100 dazu trainiert werden (z. B. über den Prozessor 104), Ergebnisse aus der Ground Truth-Bildsequenz 132 durch Minimierung von Verlusten und durch Rückführung zu simulieren.This annotated Ground Truth image sequence 132 can be used to train a model that is in the scene classification database, for example as a scene classification model 134 or saved as a scene classification policy network. Because the Ground Truth image sequence 132 the scene classification model can be annotated as desired (e.g. this can be done manually by humans) 134 be trained through machine learning, in-depth learning or another type of artificial intelligence technology. In this context, the scene classification system 100 be trained for this (e.g. via the processor 104 ), Results from the Ground Truth image sequence 132 by minimizing losses and simulating through feedback.

BilderfassungImage capture

Die Bilderfassungsvorrichtung 102 kann eine erste Reihe von Einzelbildern (z. B. Video) einer Umgebung (z. B. Betriebsumgebung) aus der Perspektive eines fahrenden Fahrzeugs erfassen. Gemäß einem Gesichtspunkt kann diese erste Reihe von Einzelbildern oder Umgebungsvideos als Eingabe in das System für die Szenenklassifizierung 100 verwendet werden.The image capture device 102 can capture a first series of individual images (e.g. video) of an environment (e.g. operating environment) from the perspective of a moving vehicle. In one aspect, this first series of still images or ambient videos can be input to the scene classification system 100 be used.

Segmentierungsegmentation

Das Bildsegmentierungsmodul 112 kann einen oder mehrere Verkehrsteilnehmer in der Umgebung aus den Einzelbildern basierend auf einem ersten neuronalen Faltungsnetzwerk (CNN) und der ersten Reihe von Einzelbildern identifizieren. Gemäß einem Gesichtspunkt kann das Bildsegmentierungsmodul 112 ein Deeplab CNN implementieren. Unabhängig von der Implementierung kann das Bildsegmentierungsmodul 112 die Semantiksegmentierung als Ausgabe bereitstellen, wenn die Eingabe der Reihe von Einzelbildern bereitgestellt wird. Das Bildsegmentierungsmodul 112 kann Objekte innerhalb jedes Einzelbildes der ersten Reihe von Einzelbildern klassifizieren. So kann beispielsweise das Bildsegmentierungsmodul 112 einen oder mehrere Fußgänger, ein oder mehrere Fahrzeuge (z. B. im Straßenverkehr), einen oder mehrere Kraftfahrer, einen oder mehrere Umstehende, einen oder mehrere Fahrradfahrer, ein oder mehrere bewegliche Objekte usw. identifizieren.The image segmentation module 112 can identify one or more road users in the environment from the individual images based on a first neural convolution network (CNN) and the first series of individual images. In one aspect, the image segmentation module 112 implement a deeplab CNN. Regardless of the implementation, the image segmentation module 112 provide the semantic segmentation as output when the input of the series of frames is provided. The image segmentation module 112 can classify objects within each frame of the first row of frames. For example, the image segmentation module 112 identify one or more pedestrians, one or more vehicles (e.g. in traffic), one or more motorists, one or more bystanders, one or more cyclists, one or more moving objects, etc.

MaskierungMasking

Der Bildmaskierer 114 kann eine zweite Reihe von Einzelbildern erzeugen, indem er einen oder mehrere der Verkehrsteilnehmer aus der Umgebung maskiert. Da Verkehrsteilnehmer in der Regel keinen Einfluss darauf haben, wie eine Szene definiert ist (z. B. ob die Umgebung eine Kreuzung, eine Autobahn usw. ist), kann der Bildmaskierer 114 alle Verkehrsteilnehmer aus der Umgebung aus der zweiten Reihe von Einzelbildern maskieren. Gemäß einem Gesichtspunkt kann der Bildmaskierer 114 durch semantische Segmentierung einen oder mehrere der Verkehrsteilnehmer aus der Einzelbildsequenz maskieren. Gemäß einem Gesichtspunkt kann die Bildmaskierer 114 auch andere unnötige Objekte aus der Umgebung maskieren, wie beispielsweise Vögel am Himmel, usw. Auf diese Weise kann der Bildmaskierer 114 dem System für die Szenenklassifizierung 100 eine größere räumliche Aufmerksamkeit bereitstellen, indem er neuronalen Netzen des Systems für die Szenenklassifizierung 100 das Fokussieren auf die unmaskierten Anteile der Einzelbilder ermöglicht und damit eine höhere Genauigkeit bei der Klassifizierung bereitstellt. Somit kann über den Bildmaskierer 114 und das Bildsegmentierungsmodul 112 semantischer Kontext bereitgestellt werden.The image masker 114 can generate a second series of individual images by masking one or more of the road users from the surroundings. Since road users generally have no influence on how a scene is defined (e.g. whether the surroundings are an intersection, a motorway, etc.), the image masker can 114 mask all road users from the surrounding area from the second row of single images. In one aspect, the image masker can 114 mask one or more of the road users from the single image sequence by semantic segmentation. In one aspect, the image masker can 114 also mask other unnecessary objects from the surroundings, such as birds in the sky, etc. In this way, the image masker can 114 the scene classification system 100 provide greater spatial attention by using the system's neural networks for scene classification 100 Focusing on the unmasked portions of the individual images enables and thus provides greater accuracy in the classification. Thus, the image masker 114 and the image segmentation module 112 semantic context are provided.

ZeitklassifizierungTime classification

Der Zeitklassifizierer 118 kann ein oder mehrere Einzelbilder der zweiten Reihe von Einzelbildern (z. B., oder aus dem ursprünglichen Satz von Einzelbildern, die von der Bilderfassungsvorrichtung 102 erfasst wurden) mit einer von zwei oder mehreren zeitlichen Vorhersagen klassifizieren und eine dritte Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf einem Szenenklassifizierungsmodell 134 zugeordnet sind. Beispiele für zeitliche Vorhersagen können Hintergrund, Annähern, Einfahren, Passieren einer Szene oder eines Ortes usw. einschließen. Der Zeitklassifizierer 118 kann lernen, dass auf das Annähern im Allgemeinen das Einfahren und dann das Passieren folgt.The time classifier 118 may be one or more frames of the second series of frames (e.g., or from the original set of frames created by the image capture device 102 classified) with one of two or more temporal predictions and generate a third series of individual images that correspond to the respective temporal predictions based on a scene classification model 134 assigned. Examples of temporal predictions can include background, approaching, entering, passing a scene or location, etc. The time classifier 118 can learn that approaching is generally followed by entering and then passing.

Gemäß einem Gesichtspunkt kann der Zeitklassifizierer 118 eine Klassifizierung basierend auf einem zweiten CNN, einem Long Short-Term Memory- (LSTM-) Netzwerk und einer ersten vollständig verbundenen Schicht auf einem Eingabesatz von Einzelbildern durchführen, die die ursprünglichen Eingabe-Einzelbilder (RGB), mit semantischer Segmentierung (RGBS) verketteten Einzelbilder, Einzelbilder mit Verkehrsteilnehmern, die mit semantischer Segmentierung maskiert (RGB-maskiert) sind, sein können, oder lediglich unter Verwendung eines semantischen Einkanal-Segmentierungsbilds (S). Auf diese Weise kann der Zeitklassifizierer 118 dazu verwendet werden zu bestimmen, wo sich das Fahrzeug 10 innerhalb einer Szene befindet (z. B. auf Einzelbildbasis). Gemäß einem Gesichtspunkt kann das zweite CNN beispielsweise als ResNet 50 implementiert werden. Der Zeitklassifizierer 118 kann vor einer Bestimmung durch den Szenenklassifizierer 120 bezüglich des Typs der Szene oder des Ortes eine oder mehrere der zeitlichen Vorhersagen bestimmen und einem oder mehreren entsprechenden Einzelbildern der ersten Reihe von Einzelbildern oder einem oder mehreren entsprechenden Einzelbildern der zweiten Reihe von Einzelbildern zuordnen. In one aspect, the time classifier 118 perform a classification based on a second CNN, a Long Short Term Memory (LSTM) network and a first fully connected layer on an input set of frames that concatenate the original input frames (RGB) with semantic segmentation (RGBS) Single images, single images with road users that are masked with semantic segmentation (RGB masked), or only using a semantic single-channel segmentation image (S). In this way, the time classifier 118 used to determine where the vehicle is 10th located within a scene (e.g. on a frame-by-frame basis). In one aspect, the second CNN may be implemented as ResNet 50, for example. The time classifier 118 can be determined by the scene classifier 120 determine one or more of the temporal predictions with respect to the type of scene or location and assign them to one or more corresponding individual images of the first row of individual images or one or more corresponding individual images of the second series of individual images.

Der Zeitklassifizierer 118 kann, wenn er eine Klassifizierung basierend auf einem CNN durchführt, den Convolutor 116 implementieren und eine Eingabe durch einen oder mehrere der CNNs des Convolutors leiten, wie beispielsweise ein CNN, ein Tiefen-CNN, ein Pose-CNN, usw. um eine Ausgabe zu erzeugen.The time classifier 118 can, when performing a classification based on a CNN, the convolutor 116 implement and route input through one or more of the convolutor's CNNs, such as a CNN, a depth CNN, a pose CNN, etc. to produce an output.

Mit anderen Worten kann der Zeitklassifizierer 118 den Anfang, die Mitte und/oder das Ende einer Szene bestimmen, bevor er bestimmt, welcher Typ von Szene die Szene tatsächlich ist, oder bevor er die zugeordnete Szenenvorhersage für die Szene bestimmt.In other words, the time classifier 118 determine the beginning, middle and / or end of a scene before determining what type of scene the scene actually is or before determining the associated scene prediction for the scene.

Anders ausgedrückt kann es der Zeitklassifizierer 118 dem System für die Szenenklassifizierung 100 ermöglichen, zwischen verschiedenen Phasen eines Ereignisses zu unterscheiden, wie beispielsweise, wenn das Fahrzeug 10 eine Kreuzung oder eine Baustelle passiert. Insbesondere kann der Zeitklassifizierer 118 ein oder mehrere Einzelbilder einer oder mehrerer Einzelbilder von einer oder mehreren der Reihen von Bildern mit einer zeitlichen Vorhersage aus einem Satz von zeitlichen Vorhersagen kennzeichnen, zuweisen oder annotieren. Wie bereits erwähnt, können Beispiele für diese zeitlichen Vorhersagen Hintergrund, Annäherung, Einfahren oder Passieren einer Szene oder eines Ortes einschließen. Auf diese Weise kann der Zeitklassifizierer 118 feinkörnige oder fein abgestimmte Zeitklassifizierung bereitstellen (z. B. um das Fahrzeug 10 an einer bestimmten, unbekannten Szene oder Stelle zu lokalisieren). Es ist zu beachten, dass andere zeitliche Vorhersagen nach anderen Gesichtspunkten verwendet werden können. So kann beispielsweise die zeitliche Vorhersage numerisch sein und das Fortschreiten durch eine Szene anzeigen (die z. B. noch durch den Szenenklassifizierer 120 zu definieren ist). Unabhängig davon kann die Ground Truth-Bildsequenz 132 dazu verwendet werden, einen Klassifizierer, wie beispielsweise den Zeitklassifizierer 118, zu trainieren, um zu erkennen, wann sich das Fahrzeug 10 an eine Szene annähert, in sie einfährt oder sie passiert, unabhängig davon, ob der Typ von Szene bekannt ist.In other words, it can be the time classifier 118 the scene classification system 100 allow to differentiate between different phases of an event, such as when the vehicle 10th a crossing or a construction site happens. In particular, the time classifier 118 identify, assign, or annotate one or more frames of one or more frames of one or more of the series of images with a temporal prediction from a set of temporal predictions. As previously mentioned, examples of these temporal predictions may include background, approaching, entering, or passing through a scene or location. In this way, the time classifier 118 Provide fine-grained or finely tuned time classification (e.g. around the vehicle 10th localize at a specific, unknown scene or location). It should be noted that other time predictions can be used from a different point of view. For example, the time prediction can be numeric and indicate the progression through a scene (e.g., through the scene classifier) 120 is to be defined). Regardless, the Ground Truth image sequence 132 to be used a classifier such as the time classifier 118 to train to recognize when the vehicle is moving 10th Approaching, entering, or happening to a scene regardless of whether the type of scene is known.

WetterklassifizierungWeather classification

Der Szenenklassifizierer 120 kann das Szenenklassifizierungsmodell 134 verwenden, das auf einem CNN, wie beispielsweise ResNet 50 oder einem Deepnet CNN, trainiert werden kann, um die Wetterklassifizierung für das Fahrzeug 10 zu bestimmen. Ähnlich wie bei der Szenenklassifizierung können Wetter, Straßenoberfläche und Umgebung über eine Eingabe klassifiziert werden, bei der die Verkehrsteilnehmer maskiert werden (z. B. über die mit dem Bildmaskierer 114 erzeugte Reihe von Einzelbildern, die einen oder mehrere der Verkehrsteilnehmer aus der Umgebung maskieren). Es können jedoch auch andere Eingaben bereitgestellt werden, wie beispielsweise die ursprünglichen Eingabeeinzelbilder (RGB), mit semantischer Segmentierung (RGBS) verkettete Einzelbilder, Einzelbilder mit Verkehrsteilnehmern, die mit semantischer Segmentierung (RGB-maskiert) maskiert sind, oder lediglich unter Verwendung eines semantischen Einkanal-Segmentierungsbild (S). Das Szenenklassifizierungsmodell 134 kann basierend auf der annotierten Ground Truth-Bildsequenz 132 trainiert werden. Beispiele für Wetterklassifizierungs-Labels können Lichtverhältnisse, Sichtverhältnisse wie beispielsweise klar, sonnig, Schneefall, regnerisch, bedeckt, bewölkt, neblig, hell, dunkel usw. sein.The scene classifier 120 can use the scene classification model 134 use that can be trained on a CNN, such as ResNet 50 or Deepnet CNN, to make the weather classification for the vehicle 10th to determine. Similar to scene classification, weather, road surface and surroundings can be classified using an input that masked road users (e.g. using the image masker) 114 generated series of individual images that mask one or more of the road users from the area). However, other inputs can also be provided, such as the original input frames (RGB), frames linked with semantic segmentation (RGBS), frames with road users masked with semantic segmentation (RGB masked), or simply using a semantic single channel -Segmentation picture (S). The scene classification model 134 can be based on the annotated Ground Truth image sequence 132 be trained. Examples of weather classification labels can be lighting conditions, visibility conditions such as clear, sunny, snowfall, rainy, overcast, cloudy, foggy, light, dark, etc.

Klassifizierung der StraßenoberflächeClassification of the road surface

Der Szenenklassifizierer 120 kann das Szenenklassifizierungsmodell 134 verwenden, das eventuell auf einem CNN, wie beispielsweise ResNet 50, trainiert worden ist, um die Straßenoberflächenklassifizierung für das Fahrzeug 10 zu bestimmen. Das Szenenklassifizierungsmodell 134 kann basierend auf der Ground Truth-Bildsequenz 132 trainiert werden, die wie vorstehend beschrieben mit einem oder mehreren Labels für jedes der zugeordneten Einzelbilder annotiert werden kann. Beispiele für Straßenbelagsklassifizierungs-Labels können trocken, nass, Schnee, verdeckt (z. B. einige Verkehrsmarkierungen nicht sichtbar), Schlamm usw. sein.The scene classifier 120 can use the scene classification model 134 use that may have been trained on a CNN, such as ResNet 50, for road surface classification for the vehicle 10th to determine. The scene classification model 134 can based on the ground truth image sequence 132 are trained, which can be annotated with one or more labels for each of the assigned individual images as described above. Examples of road surface classification labels can be dry, wet, snow, covered (e.g. some traffic markings not visible), mud, etc.

Umgebungsklassifizierung Environment classification

Der Szenenklassifizierer 120 kann ähnlich wie die anderen Typen von Klassifizierungen fungieren. Beispiele für Umgebungsklassifizierungs-Labels können Umgebungstypen wie städtisch, ländlich, vorstädtisch, Auf-/Abfahrt, Autobahn, lokal (z. B. Nachbarschaft, Wohngegend, Schule) usw. einschließen.The scene classifier 120 can act similarly to the other types of classifications. Examples of environmental classification labels may include environmental types such as urban, rural, suburban, up / down, highway, local (e.g. neighborhood, neighborhood, school), etc.

Szenen- oder OrtsklassifizierungScene or location classification

Der Szenenklassifizierer 120 kann einen oder mehrere Einzelbilder der dritten Reihe von Einzelbildern basierend auf einem dritten CNN, Global Average Pooling und einer zweiten vollständig verbundenen Schicht klassifizieren und eine zugeordnete Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell 134 und entsprechenden zeitlichen Vorhersagen erzeugen. Der Szenenklassifizierer 120 kann eine vierte Reihe von Einzelbildern erzeugen, die den jeweiligen zeitlichen Vorhersagen basierend auf dem Szenenklassifizierungsmodell 134 und den jeweiligen zeitlichen Vorhersagen zugeordnet sind. Auf diese Weise kann der Zeitklassifizierer 118 dazu verwendet werden, Einzelbilder aus dem Video oder aus den Bildsequenzen zu schneiden, um eine effiziente Szenenklassifizierung zu ermöglichen. Anders ausgedrückt, kann der Szenenklassifizierer 120 lediglich Einzelbilder berücksichtigen, die als Annäherung, Einfahren und Passieren eines bestimmten Umgebungsortes markiert sind, während er als Hintergrund annotierte Einzelbilder ignoriert und somit beispielsweise eine dynamische Klassifizierung von Straßenszenen ermöglicht. Auf diese Weise reduziert diese zweistufige Architektur den unnötigen Einsatz von Rechenleistung, indem Hintergrundeinzelbilder von der Untersuchung und/oder Szenenklassifizierung ausgeschlossen werden. Somit fungiert der Zeitklassifizierer 118 als Grobseparator für den Szenenklassifizierer 120, der die Menge an Rechenleistung und Ressourcen, die zur Klassifizierung von Szenen verwendet werden, mildert und lediglich die Kandidatenbilder für Annähern, Einfahren oder Passieren an den Szenenklassifizierer 120 als Ereignisfenster an das Vorhersagenetzwerk sendet.The scene classifier 120 may classify one or more frames of the third series of frames based on a third CNN, Global Average Pooling and a second fully connected layer and an associated scene prediction based on the scene classification model 134 and generate corresponding temporal forecasts. The scene classifier 120 can generate a fourth series of individual images that correspond to the respective time predictions based on the scene classification model 134 and are assigned to the respective time predictions. In this way, the time classifier 118 are used to cut individual images from the video or from the image sequences in order to enable efficient scene classification. In other words, the scene classifier 120 only consider single images that are marked as approaching, entering and passing a certain surrounding location, while it ignores annotated individual images as the background and thus enables, for example, a dynamic classification of street scenes. In this way, this two-stage architecture reduces the unnecessary use of computing power by excluding background individual images from the examination and / or scene classification. So the time classifier works 118 as a rough separator for the scene classifier 120 , which mitigates the amount of computing power and resources used to classify scenes and only the candidate images for approaching, entering or passing the scene classifier 120 as an event window to the prediction network.

Der Szenenklassifizierer 120 kann, ähnlich wie der Zeitklassifizierer 118, wenn er eine Klassifizierung basierend auf einem CNN durchführt, den Convolutor 116 implementieren und eine Eingabe durch eines oder mehrere der CNNs des Convolutors leiten, wie beispielsweise ein CNN, eine Tiefen-CNN, eine Pose-CNN, ResNet 50-CNN, usw. um eine Ausgabe zu erzeugen.The scene classifier 120 can, similar to the time classifier 118 when performing a classification based on a CNN, the convolutor 116 implement and route input through one or more of the convolutor's CNNs, such as a CNN, a depth CNN, a pose CNN, ResNet 50-CNN, etc. to produce an output.

Gemäß einem Gesichtspunkt kann das dritte CNN beispielsweise als ResNet 50 implementiert sein. Daher kann der Szenenklassifizierer 120 eine oder mehrere der zeitlichen Vorhersagen aus einem oder mehreren der entsprechenden Einzelbilder verwenden, um die Bestimmung zu erleichtern, welcher Typ von Szene oder Ort dem Annähern, Einfahren und Passieren einer Szene zugeordnet ist. So kann beispielsweise der Zeitklassifizierer 118 ein oder mehrere Einzelbilder aus der Reihe der Einzelbilder mit zeitlichen Vorhersagen klassifiziert haben. Anhand dieser zeitlichen Vorhersagen kann der Szenenklassifizierer 120 bestimmen, dass ein Satz von Einzelbildern, die dem Annähern, Einfahren und Passieren einer Szene aus der Reihe von Einzelbildern zugeordnet sind, beispielsweise eine Baustelle ist. Somit kann der Zeitklassifizierer 118 bestimmen, dass das Fahrzeug 10 durch einen Anfang, eine Mitte und ein Ende eines unbekannten Typs von Szene fährt, und der Szenenklassifizierer 120 kann bestimmen, welcher Typ von Szene die Szene ist, nachdem der Zeitklassifizierer 118 seine zeitlichen Vorhersagen der Einzelbilder gemacht oder bestimmt hat.In one aspect, the third CNN may be implemented as ResNet 50, for example. Therefore, the scene classifier 120 Use one or more of the temporal predictions from one or more of the corresponding frames to help determine what type of scene or location is associated with approaching, entering, and passing a scene. For example, the time classifier 118 have classified one or more individual images from the series of individual images with temporal predictions. Based on these temporal predictions, the scene classifier can 120 determine that a set of frames associated with approaching, entering, and passing a scene from the series of frames is, for example, a construction site. Thus the time classifier 118 determine that the vehicle 10th passes through a beginning, a middle and an end of an unknown type of scene, and the scene classifier 120 can determine what type of scene the scene is after the time classifier 118 made or determined his temporal predictions of the individual images.

Beispiele für Szenen- oder Ortsklassifizierungen können Orte auf Straßen, wie beispielsweise eine Baustelle, eine Kreuzung (z. B. eine x-Wege-Kreuzung, wie beispielsweise eine Drei-, Vier-, Fünf-Wege-Kreuzung, usw.), eine Brücke, eine Überführung, ein Bahnübergang, ein Tunnel, eine Spurzusammenführung, eine Spurabzweigung, ein Zebrastreifen, usw. einschließen. Auf diese Weise kann die Szenenvorhersage eine Szenenklassifizierung sein, die einen Typ von Standort angibt, dem sich das Fahrzeug 10 z. B. nähert, in den es einfährt oder den es passiert.Examples of scene or location classifications can be locations on roads, such as a construction site, an intersection (e.g. an x-way intersection, such as a three, four, five way intersection, etc.), a Include a bridge, an overpass, a railroad crossing, a tunnel, a track junction, a track junction, a zebra crossing, etc. In this way, the scene prediction can be a scene classification that indicates a type of location that the vehicle is located 10th e.g. B. approaches, into which it enters or which it happens.

Gemäß einem Gesichtspunkt kann der Szenenklassifizierer 120 die Szenenvorhersage basierend auf der Eingabe der ersten Reihe von Einzelbildern in Echtzeit erzeugen, und zwar so, dass eine vollständige Reihe von Einzelbildern, die zeitlich aus dem Hintergrund mit „Annähern, Einfahren, Passieren“ annotiert sind, nicht zwangsläufig erforderlich ist, um die Szenenvorhersage zu erzeugen. Mit anderen Worten wird eventuell nur eine Teilreihe von Einzelbildern mit zeitlichen Vorhersagen (z. B. Hintergrund, Annäherung, ...., usw.) versehen, bevor der Szenenklassifizierer 120 die zugeordnete Szenenvorhersage basierend auf dem CNN, dem Global Average Pooling und entsprechenden zeitlichen Vorhersagen erzeugt. Somit kann die Entwicklung des maschinellen Lernens, das den semantischen Kontext und die zeitliche Natur des Ground Truth-Datensatzes verwendet, die Klassifizierungsergebnisse für das System zur Szenenklassifizierung 100 verbessern.In one aspect, the scene classifier can 120 generate the scene prediction based on the input of the first series of single images in real time, in such a way that a complete series of individual images that are annotated from the background with “approach, drive in, pass” in the background is not necessarily required for the scene prediction to create. In other words, only a subset of individual images may be provided with time predictions (e.g. background, approximation, ..., etc.) before the scene classifier 120 generates the assigned scene prediction based on the CNN, the global average pooling and corresponding temporal predictions. Thus, the development of machine learning that uses the semantic context and temporal nature of the Ground Truth dataset can result in the classification results for the scene classification system 100 improve.

FahrzeuganwendungVehicle application

Die Steuerung kann einen oder mehrere Sensoren oder ein oder mehrere Fahrzeugsysteme 190 des Fahrzeugs 10 basierend auf der Szenenvorhersage und/oder einer oder mehreren der Klassifizierungen, wie beispielsweise der Wetterklassifizierung, der Fahrbahnklassifizierung, der Umgebungsklassifizierung usw. aktivieren oder deaktivieren. Da beispielsweise Szenenkontextmerkmale als eine Vorstufe für andere nachgelagerte Aufgaben wie das Erkennen von Objekten, Verhalten, Aktion, Absicht, Navigation, Lokalisierung usw. dienen können, kann die Steuerung des Fahrzeugs 10 basierend auf der vom Szenenklassifizierer 120 bestimmten Szenenvorhersage sowie der anderen Klassifizierungen, einschließlich der Wetterklassifizierung, der Straßenoberflächenklassifizierung und der Umgebungsklassifizierung, reagieren.The controller can have one or more sensors or one or more vehicle systems 190 of the vehicle 10th based on the scene prediction and / or one or more of the classifications, such as the weather classification, the lane classification, the Enable or disable environmental classification, etc. For example, since scene context features can serve as a preliminary stage for other downstream tasks such as recognizing objects, behavior, action, intent, navigation, localization, etc., the control of the vehicle can 10th based on that from the scene classifier 120 certain scene prediction, as well as other classifications, including weather classification, road surface classification, and environmental classification.

Wenn beispielsweise der Szenenklassifizierer 120 die Szenenvorhersage als Fußgängerüberweg bestimmt, kann die Steuerung des Fahrzeugs 10 zusätzliche Sensoren zur Erkennung von Fußgängern aktivieren. Zu anderen Zeiten, wie beispielsweise wenn sich das Fahrzeug 10 auf der Autobahn befindet, können die Fußgängersensoren niedriger priorisiert werden. Als weiteres Beispiel, wenn der Szenenklassifizierer 120 die Szenenvorhersage als Kreuzung bestimmt, kann die Steuerung des Fahrzeugs 10 zusätzliche Sensoren aktivieren oder bestimmte Module betreiben, um Ampeln, Stoppschilder, Haltelinien oder andere kreuzungsbezogene Informationen zu erkennen. Mit anderen Worten kann die Steuerung die Suche nach Ampeln, Stoppschildern und Haltelinien neu priorisieren oder hoch priorisieren, basierend darauf, dass die Szenenvorhersage eine Kreuzung ist. Umgekehrt kann die Steuerung ein LIDAR-System oder ein Radarsystem deaktivieren, basierend darauf, dass die Szenenvorhersage ein Tunnel ist.For example, if the scene classifier 120 determines the scene prediction as a pedestrian crossing, the control of the vehicle 10th Activate additional sensors to detect pedestrians. At other times, such as when the vehicle is moving 10th located on the highway, pedestrian sensors can be prioritized lower. As another example, if the scene classifier 120 determines the scene prediction as an intersection, can control the vehicle 10th Activate additional sensors or operate certain modules to recognize traffic lights, stop signs, stop lines or other intersection-related information. In other words, the controller can re-prioritize or prioritize the search for traffic lights, stop signs, and stop lines based on the scene prediction being an intersection. Conversely, the controller can disable a lidar or radar system based on the scene prediction being a tunnel.

Gemäß einem Gesichtspunkt bestimmt der Szenenklassifizierer 120 die Szenenvorhersage als Baustelle, die Steuerung des Fahrzeugs (z. B. über den Prozessor 104 implementiert) kann warnen oder Benachrichtigungen ausgeben und/oder autonomes Fahren deaktivieren, basierend darauf, dass die Szenenvorhersage die Baustelle ist, da autonome Fahrzeuge vorgefertigte, hochauflösende Karten einer Fahrbahn verwenden können. Wenn der Szenenklassifizierer 120 bestimmt, dass es draußen neblig oder regnerisch ist, kann der Prozessor 104 den LIDAR von einem oder mehreren der Fahrzeugsysteme 190 deaktivieren, um Geisterbildeffekte zu mildern. Wenn der Szenenklassifizierer 120 die Fahrzeugszenenvorhersage bestimmt als „in einem Tunnel“ oder dass es eine Überführung gibt, kann die Priorität des GPS der Fahrzeugsysteme 190 herabgestuft werden, da das GPS die Verfolgung vom Tunnel oder der Überführung aus verlieren kann. Darüber hinaus können Kameras für extreme Belastungen beim Passieren des Tunnel- oder Überführungsbereichs vorbereitet werden. Ebenso kann ein Spurhaltemeldesystem mit größeren Toleranzen implementiert oder deaktiviert werden, wenn der Szenenklassifizierer 120 beispielsweise die Szenenvorhersage als Abzweigbereich oder in der Nähe einer Abfahrt bestimmt. Daher kann der Szenenklassifizierer 120 dazu verwendet werden, die Verwendung eines oder mehrerer der Fahrzeugsysteme 190 zu verbessern, wie beispielsweise durch Aktivieren, Deaktivieren, Priorisieren, Herabstufen der Priorität, usw. eines oder mehrerer der jeweiligen Fahrzeugsysteme 190. Auf diese Weise kann der Szenenklassifizierer 120 kontextuelle Hinweise für andere Fahrzeugsysteme 190 des Fahrzeugs 10 liefern, um effizient zu arbeiten.In one aspect, the scene classifier determines 120 scene prediction as a construction site, control of the vehicle (e.g. via the processor 104 implemented) can warn or issue notifications and / or deactivate autonomous driving, based on the fact that scene prediction is the construction site, since autonomous vehicles can use pre-made, high-resolution maps of a roadway. If the scene classifier 120 determines that it is foggy or rainy outside, the processor can 104 the LIDAR of one or more of the vehicle systems 190 disable to mitigate ghosting effects. If the scene classifier 120 The vehicle scene prediction determined as "in a tunnel" or that there is an overpass may be the priority of the GPS of the vehicle systems 190 be downgraded because the GPS may lose tracking from the tunnel or overpass. In addition, cameras can be prepared for extreme loads when passing through the tunnel or overpass area. Likewise, a lane departure warning system with larger tolerances can be implemented or deactivated if the scene classifier 120 For example, the scene prediction is determined as a branch area or in the vicinity of a departure. Therefore, the scene classifier 120 used to use one or more of the vehicle systems 190 to improve, such as by activating, deactivating, prioritizing, downgrading the priority, etc. of one or more of the respective vehicle systems 190 . In this way, the scene classifier 120 contextual information for other vehicle systems 190 of the vehicle 10th deliver to work efficiently.

2 ist ein Flussdiagramm eines Verfahrens 200 zur Szenenklassifizierung gemäß einem Gesichtspunkt. Das Verfahren 200 zur Szenenklassifizierung kann das Erfassen 202 einer ersten Reihe von Einzelbildern einer Umgebung von einem fahrenden Fahrzeug, das Identifizieren 204 von Verkehrsteilnehmern innerhalb der Umgebung basierend auf einem ersten CNN, das Erzeugen 206 einer zweiten Reihe von Einzelbildern durch Maskieren von Verkehrsteilnehmern aus der Umgebung, das Klassifizieren 208 von Einzelbildern der zweiten Reihe von Einzelbildern mit zeitlichen Vorhersagen basierend auf einem zweiten CNN, einem Long Short-Term Memory- (LSTM-) Netzwerk und einer ersten vollständig verbundenen Schicht, das Klassifizieren 210 von Einzelbildern basierend auf einem dritten CNN, einem Global Average Pooling und einer zweiten vollständig verbundenen Schicht und das Erzeugen 212 einer zugeordneten Szenenvorhersage basierend auf dem Szenenklassifizierungsmodell 134 und entsprechenden zeitlichen Vorhersagen einschließen. 2nd is a flowchart of a method 200 for scene classification according to one aspect. The procedure 200 for scene classification can be recorded 202 identifying a first series of individual images of an environment from a moving vehicle 204 of road users within the area based on a first CNN that is generating 206 a second series of individual images by masking road users from the area, the classification 208 of frames of the second series of frames with temporal predictions based on a second CNN, a long short term memory (LSTM) network and a first fully connected layer, classifying 210 of individual images based on a third CNN, a global average pooling and a second completely connected layer and the generation 212 an assigned scene prediction based on the scene classification model 134 and include corresponding time predictions.

3 ist ein beispielhaftes Diagramm von zeitlichen Vorhersagen, die einer Szenenklassifizierung zugeordnet sind, gemäß einem Gesichtspunkt. In 3 können verschiedene von der Bilderfassungsvorrichtung 102 erfasste Einzelbilder in Verbindung mit der Ground Truth-Bildsequenz 132 gekennzeichnet werden. So kann beispielsweise ein erstes Einzelbild 310 als ein Einzelbild „Annähern“, ein zweites Einzelbild 320 als Einzelbild „Einfahren“ und ein drittes Einzelbild 330 als Einzelbild „Passieren“ bezeichnet werden. Dieses Annähern, Einfahren und Passieren kann dem entsprechen, dass sich das Fahrzeug 10 einer Kreuzung nähert 312, in sie einfährt 322 und sie passiert 332, wie in 3 dargestellt. 3rd FIG. 10 is an exemplary diagram of temporal predictions associated with a scene classification according to one aspect. In 3rd can be different from the image capture device 102 captured individual images in connection with the ground truth image sequence 132 be marked. For example, a first frame 310 as a single picture "approaching", a second single picture 320 as a single picture "drive in" and a third single picture 330 be referred to as a single image "Passing". This approaching, entering and passing can correspond to the fact that the vehicle is moving 10th approaches an intersection 312, enters it 322 and passes 332 as in 3rd shown.

Während 3 das Annähern, Einfahren und Passieren für den Kreuzungsszenentyp darstellt, können andere Szenentypen in ähnlicher Weise annotiert sein (z. B. einschließlich zeitlicher Vorhersagen über Annähern, Einfahren und Passieren sowie anderen Annotationen, wie beispielsweise Annotationen zum Szenentyp einer Kreuzung, einer Brücke, eines Tunnels usw.). Es ist zu beachten, dass die Ground Truth-Bildsequenz 132 und die von der Bilderfassungsvorrichtung 102 erfasste Reihe von Einzelbildern aus der Perspektive eines fahrenden Fahrzeugs sein kann und somit die Einzelbilder nicht aus der Perspektive einer statischen oder stationären Kamera sind. Mit anderen Worten können die Ground Truth-Bildsequenz 132 und die erfasste Reihe von Einzelbildern Raum-Zeit-Variationen in Bezug auf Blickwinkel und/oder Szenenerscheinungsbild einschließen. Wie in 3 zu sehen ist, können Sichtvariationen durch den sich ändernden Abstand zur Kreuzung verursacht werden, wenn sich das Fahrzeug 10 der Szene von Interesse nähert (d. h. der Kreuzung beim Passieren 332). Die 4A - 4B sind beispielhafte Diagramme von zeitlichen Vorhersagen, die verschiedenen Szenenklassifizierungen zugeordnet sind, nach einem Gesichtspunkt. In den 4A - 4B sind verschiedene Beispiele für eine Vielzahl von Annotationen aufgeführt. Gemäß einem Gesichtspunkt können ein oder mehrere CNNs oder andere Netzwerke implementiert werden, um die durch die Architektur der 4A - 4B durchgeführten Parameter nachvollziehbar zu machen.While 3rd representing approaching, entering, and passing for the intersection scene type, other scene types may be annotated in a similar manner (e.g., including temporal predictions of approaching, entering, and passing, as well as other annotations, such as annotations of the scene type of an intersection, a bridge, a tunnel etc.). Note that the Ground Truth image sequence 132 and that from the image capture device 102 captured series of single images from the perspective of a moving Can be vehicle and thus the individual images are not from the perspective of a static or stationary camera. In other words, the Ground Truth image sequence 132 and the acquired series of individual images include space-time variations in terms of viewing angle and / or scene appearance. As in 3rd Visibility variations can be caused by the changing distance to the intersection when the vehicle is moving 10th approaches the scene of interest (ie the intersection as it passes 332 ). The 4A - 4B are exemplary diagrams of temporal predictions, which are assigned to different scene classifications, from one point of view. In the 4A - 4B are various examples of a variety of annotations. In one aspect, one or more CNNs or other networks may be implemented to address the architecture of the 4A - 4B make carried out parameters understandable.

5 ist ein beispielhaftes Diagramm einer Architektur, die dem Training des Systems für die Szenenklassifizierung 100 von 1 zugeordnet ist. Die Ground Truth-Bildsequenz 132 kann mit Annotationen versehen werden, um das Szenenklassifizierungslabel von „Baustelle“ einzuschließen, und jeder der Einzelbilder der Eingangsreihe von Einzelbildern der Baustellenumgebung kann mit zeitlichen Vorhersagen annotiert werden, die anzeigen, wo sich das fahrende Fahrzeug innerhalb der Baustelle befindet. Mit anderen Worten können die zeitlichen Vorhersagen der Ground Truth-Bildsequenz 132 beispielsweise als „Annähern, Einfahren oder Passieren“ markiert werden. 5 Fig. 3 is an exemplary diagram of an architecture used to train the system for scene classification 100 of 1 assigned. The Ground Truth image sequence 132 can be annotated to include the "site" scene classification label, and each of the frames in the entrance row of frames of the site environment can be annotated with temporal predictions indicating where the moving vehicle is within the site. In other words, the temporal predictions of the ground truth image sequence 132 for example marked as "approaching, entering or passing".

Die Bilderfassungsvorrichtung 102 kann eine Eingangsreihe von Einzelbildern erfassen. Das Bildsegmentierungsmodul 112 kann einen oder mehrere Verkehrsteilnehmer mittels semantischer Segmentierung segmentieren oder identifizieren, wie beispielsweise über eine CNN 510 (z. B. ein Deeplab CNN). Der Bildmaskierer 114 kann einen oder mehrere der Verkehrsteilnehmer aus den Bildern maskieren, sodass sich das System zur Szenenklassifizierung 100 nur auf die Umgebung konzentrieren und eine entsprechend genauere Szenenklassifizierung vornehmen kann.The image capture device 102 can capture an input row of still images. The image segmentation module 112 can segment or identify one or more road users using semantic segmentation, such as via a CNN 510 (e.g. a deeplab CNN). The image masker 114 can mask one or more of the road users from the images so that the scene classification system 100 only focus on the environment and can make a correspondingly more precise scene classification.

Wie in 5 zu sehen ist, kann der Zeitklassifizierer 118 dazu verwendet werden, ungeschnittenes Video zu schneiden und die Merkmale zur Klassifizierung des gesamten geschnittenen Segments zu aggregieren. So kann es beispielsweise zweckmäßig sein, eine Klasse als 4-Wege-Kreuzung zu analysieren oder zu bestimmen, indem man ein Segment (z. B. Annähern, Einfahren und Passieren) in seiner Gesamtheit und nicht auf Einzelbildbasis betrachtet oder untersucht. Hier kann dem Zeitklassifizierer 118 die Reihe von Einzelbildern zugeführt werden, bei denen die Verkehrsteilnehmer maskiert sind (z. B. die RGB-maskierten Einzelbilder). Gemäß anderen Gesichtspunkten oder Architekturen kann der Zeitklassifizierer 118 andere Reihen von Einzelbildern empfangen, wie beispielsweise RGB-, RGBS- oder S-Bilder. Auf jeden Fall kann der Zeitklassifizierer 118 den Eingangssatz von Einzelbildern empfangen und diese durch ein CNN 520, wie beispielsweise das ResNet 50 CNN, hindurchführen, einen Satz von Merkmalen 522 extrahieren, diesen Satz von Merkmalen durch einen LSTM 526 und eine vollständig verbundene Schicht 528 hindurchführen und so eine Reihe von Einzelbildern erzeugen, die jeweils mit zeitlichen Vorhersagen annotiert sind.As in 5 can be seen, the time classifier 118 used to cut uncut video and aggregate the features to classify the entire cut segment. For example, it may be useful to analyze or determine a class as a 4-way intersection by looking at or examining a segment (e.g. approaching, entering and passing) in its entirety and not on a frame-by-frame basis. Here the time classifier 118 the series of individual images are supplied in which the road users are masked (e.g. the RGB masked individual images). According to other aspects or architectures, the time classifier can 118 receive other rows of frames, such as RGB, RGBS or S pictures. In any case, the time classifier 118 receive the input set of frames and these through a CNN 520 , such as the ResNet 50 CNN, a set of features 522 extract this set of characteristics through an LSTM 526 and a fully bonded layer 528 pass through and thus create a series of individual images, each annotated with temporal predictions.

Die mit zeitlichen Vorhersagen annotierte Reihe von Einzelbildern kann dem Szenenklassifizierer 120 zugeführt werden, der eine oder mehrere CNNs 530, wie beispielsweise das ResNet 50 CNN, einschließen kann, einen Satz von Merkmalen 532 extrahieren, ein Global Average Pooling 536 durchführen und die Ergebnisse durch eine vollständig verbundene Schicht 538 hindurchführen, um eine Szenenvorhersage für die Szene (z. B. die bis zu diesem Zeitpunkt unbekannt sein kann) zu erzeugen, einschließlich Einzelbildern, die beim Annähern, Einfahren und Passieren annotiert werden. Dieses Modell kann basierend auf der Ground Truth-Bildsequenz 132 trainiert werden. Mit anderen Worten können der Zeitklassifizierer 118 und der Szenenklassifizierer 120 durch maschinelles Lernen oder Tiefenlernen trainiert werden, um die Annotationen der Ground Truth-Bildsequenz 132 zu replizieren oder zu simulieren, z. B. wenn dem System für die Szenenklassifizierung 100 eine ähnliche nicht annotierte Reihe von Einzelbildern zur Verfügung gestellt wird, wodurch ein Szenenklassifizierungsmodell 134 oder ein Szenenklassifizierungs-Richtliniennetzwerk aufgebaut wird, das in der Szenenklassifizierungsdatenbank auf dem Server 130 gespeichert ist.The series of individual images annotated with temporal predictions can be used by the scene classifier 120 supplied to the one or more CNNs 530 , such as the ResNet 50 CNN, may include a set of features 532 extract a global average pooling 536 and perform the results through a fully connected layer 538 pass through to generate a scene prediction for the scene (e.g., which may be unknown up to this point), including still images annotated as they approach, enter, and pass. This model can be based on the Ground Truth image sequence 132 be trained. In other words, the time classifier 118 and the scene classifier 120 be trained through machine learning or deep learning to the annotations of the Ground Truth image sequence 132 to replicate or simulate e.g. B. when the scene classification system 100 a similar non-annotated series of frames is provided, creating a scene classification model 134 or a scene classification policy network is built up in the scene classification database on the server 130 is saved.

Der Szenenklassifizierer 120 kann Einzelbilder innerhalb dieses Fensters durch Global Average Pooling aggregieren und ein eindeutiges Klassen-Label für das gesamte Ereignis, den Ort oder die Szene herstellen. Gemäß einem Gesichtspunkt können ein oder mehrere der hierin beschriebenen CNNs auf der Ground Truth-Bildsequenz 132 oder einer anderen Datenbank aus der Szenenklassifizierungsdatenbank vortrainiert werden. Um die Überanpassung zu reduzieren, kann eine Datenaugmentierung durchgeführt werden. Es können zufälliges Kippen, zufällige Größenänderung und zufälliger Zuschnitt verwendet werden. Wie angegeben, kann der Prozessor 104 oder die Steuerung des Fahrzeugs 10 Anpassungen für ein oder mehrere Fahrzeugsysteme 190 basierend auf der erzeugten Szenenvorhersage vornehmen.The scene classifier 120 can aggregate individual images within this window using global average pooling and create a unique class label for the entire event, location or scene. In one aspect, one or more of the CNNs described herein can be on the ground truth image sequence 132 or another database from the scene classification database. In order to reduce the overfitting, data augmentation can be carried out. Random tilt, resize, and trim can be used. As indicated, the processor can 104 or the control of the vehicle 10th Adaptations for one or more vehicle systems 190 based on the generated scene prediction.

Ein weiterer Gesichtspunkt betrifft ein computerlesbares Medium, das prozessorausführbare Anweisungen einschließt, die dazu eingerichtet sind, einen Gesichtspunkt der hierin präsentierten Techniken zu implementieren. Ein Gesichtspunkt eines computerlesbaren Mediums oder einer computerlesbaren Vorrichtung, die auf diese Weisen entwickelt sind, ist in 6 veranschaulicht, wobei eine Implementierung 600 ein computerlesbares Medium 608 einschließt, wie beispielsweise eine CD-R, eine DVD-R, ein Flash-Laufwerk, eine Platte eines Festplattenlaufwerks usw., auf denen computerlesbaren Daten 606 codiert sind. Diese codierten computerlesbaren Daten 606, wie beispielsweise Binärdaten, die eine Vielzahl von Nullen und Einsen einschließen, wie in 606 gezeigt, schließen wiederum einen Satz von prozessorausführbaren Computeranweisungen 604 ein, die dazu eingerichtet sind, gemäß einem oder mehreren der hierin dargelegten Prinzipien zu arbeiten. In dieser Implementierung 600 können die prozessorausführbaren Computeranweisungen 604 dazu konfiguriert werden, ein Verfahren 602 auszuführen, wie beispielsweise das Verfahren 200 von 2. In einem anderen Gesichtspunkt können die prozessorausführbaren Computeranweisungen 604 dazu eingerichtet sein, ein System zu realisieren, wie beispielsweise das System zur Szenenklassifizierung 100 von 1. Viele derartige computerlesbare Medien können von Durchschnittsfachleuten entwickelt werden, und so eingerichtet werden, dass sie gemäß den hierin präsentierten Techniken arbeiten. Another aspect relates to a computer readable medium that includes processor executable instructions configured to implement one aspect of the techniques presented herein. One aspect of a computer readable medium or device developed in this manner is shown in 6 illustrates one implementation 600 a computer readable medium 608 includes, such as a CD-R, a DVD-R, a flash drive, a hard disk drive, etc., on which computer readable data 606 are encoded. This encoded computer readable data 606 , such as binary data including a plurality of zeros and ones, as shown in 606, in turn include a set of processor-executable computer instructions 604 which are configured to operate in accordance with one or more of the principles set forth herein. In this implementation 600 can the processor-executable computer instructions 604 to be configured a procedure 602 to perform, such as the procedure 200 of 2nd . In another aspect, the processor-executable computer instructions 604 be set up to implement a system, such as the scene classification system 100 of 1 . Many such computer readable media can be developed by those of ordinary skill in the art and can be arranged to operate in accordance with the techniques presented herein.

Wie in dieser Anmeldung verwendet, sollen sich die Begriffe „Komponente“, „Modul“, „System“, „Schnittstelle“ und dergleichen allgemein auf eine computerbezogene Einheit beziehen, entweder Hardware, eine Kombination aus Hardware und Software, Software oder Software in Ausführung. Zum Beispiel kann eine Komponente ein Prozess sein, der auf einem Prozessor, einer Verarbeitungseinheit, einem Objekt, einem ausführbaren Programm, einem Ausführungsthread, einem Programm oder einem Computer läuft, ist aber nicht darauf beschränkt. Zur Veranschaulichung können sowohl eine Anwendung, die auf einem Steuergerät ausgeführt wird, als auch das Steuergerät eine Komponente sein. Ein oder mehrere Komponenten, die sich in einem Prozess oder Ausführungsthread befinden und eine Komponente können auf einem Computer lokalisiert sein oder auf zwei oder mehr Computer verteilt sein.As used in this application, the terms "component", "module", "system", "interface" and the like are intended to refer generally to a computer-related entity, either hardware, a combination of hardware and software, software or software in execution. For example, a component can be, but is not limited to, a process running on a processor, processing unit, object, executable program, execution thread, program, or computer. As an illustration, both an application that is executed on a control device and the control device can be a component. One or more components that are in a process or execution thread and a component can be located on one computer or distributed across two or more computers.

Ferner wird der beanspruchte Gegenstand als ein Verfahren, eine Vorrichtung oder ein Herstellungsgegenstand unter Verwendung von Standardprogrammier- oder Entwicklungstechniken implementiert, um Software, Firmware, Hardware oder eine beliebige Kombination davon zu erzeugen, um einen Computer zum Implementieren des offenbarten Gegenstands zu steuern. Der Begriff „Herstellungsgegenstand“, wie er hierin verwendet wird, soll ein Computerprogramm umfassen, auf das von jeder computerlesbaren Vorrichtung, jedem Träger oder jedem Medium zugegriffen werden kann. Natürlich können viele Modifikationen an dieser Konfiguration vorgenommen werden, ohne vom Schutzumfang oder Geist des beanspruchten Gegenstands abzuweichen.Furthermore, the claimed subject matter is implemented as a method, apparatus, or article of manufacture using standard programming or development techniques to create software, firmware, hardware, or any combination thereof, to control a computer to implement the disclosed subject matter. As used herein, the term "article of manufacture" is intended to encompass a computer program that can be accessed by any computer-readable device, medium or medium. Of course, many modifications can be made to this configuration without departing from the scope or spirit of the claimed subject matter.

7 und die folgende Erörterung stellen eine Beschreibung einer geeigneten Computerumgebung bereit, um Gesichtspunkte einer oder mehrerer der hierin dargelegten Maßnahmen zu implementieren. Die Betriebsumgebung von 7 ist lediglich ein Beispiel für eine geeignete Betriebsumgebung und soll keine Einschränkung hinsichtlich des Anwendungsbereichs oder der Funktionalität der Betriebsumgebung nahelegen. Beispielhafte Rechenvorrichtungen schließen, sind aber nicht beschränkt auf, Personalcomputer, Servercomputer, tragbare Vorrichtungen oder Laptops, mobile Vorrichtungen, wie Mobiltelefone, Personal Digital Assistants (PDA), Mediaplayer, und dergleichen, Multiprozessorsysteme, Unterhaltungselektronik, Minicomputer, Großrechner, verteilte Computerumgebungen, die beliebige der oben genannten Systeme oder Vorrichtungen einschließen usw., ein. 7 and the following discussion provides a description of a suitable computing environment to implement aspects of one or more of the measures set forth herein. The operating environment of 7 is only an example of a suitable operating environment and is not intended to suggest any restriction with regard to the area of application or the functionality of the operating environment. Exemplary computing devices include, but are not limited to, personal computers, server computers, portable devices or laptops, mobile devices such as cell phones, personal digital assistants (PDAs), media players, and the like, multiprocessor systems, consumer electronics, minicomputers, mainframes, distributed computing environments, any of the above systems or devices include, etc.

Im Allgemeinen werden Gesichtspunkte in dem allgemeinen Kontext von „computerlesbaren Anweisungen“ beschrieben, die durch eine oder mehrere Rechenvorrichtungen ausgeführt werden. Computerlesbare Anweisungen können über computerlesbare Medien verteilt werden, wie nachstehend erörtert wird. Computerlesbare Anweisungen können als Programmmodule wie beispielsweise Funktionen, Objekte, Anwendungsprogrammierschnittstellen (APIs), Datenstrukturen und dergleichen implementiert werden, die eine oder mehrere Aufgaben ausführen oder einen oder mehrere abstrakte Datentypen implementieren. Üblicherweise wird die Funktionalität von computerlesbaren Anweisungen nach Wunsch in verschiedenen Umgebungen kombiniert oder verteilt.In general, aspects are described in the general context of "computer readable instructions" that are executed by one or more computing devices. Computer readable instructions can be distributed over computer readable media, as discussed below. Computer-readable instructions can be implemented as program modules such as functions, objects, application programming interfaces (APIs), data structures and the like, which perform one or more tasks or implement one or more abstract data types. Typically, the functionality of computer readable instructions is combined or distributed in different environments as desired.

7 veranschaulicht ein System 700, das eine Rechenvorrichtung 712 einschließt, die dazu konfiguriert ist, einen hierin bereitgestellten Gesichtspunkt zu implementieren. In einer Konfiguration schließt die Rechenvorrichtung 712 mindestens eine Verarbeitungseinheit 716 und einen Speicher 718 ein. In Abhängigkeit von der genauen Konfiguration und dem Typ der Rechenvorrichtung kann der Speicher 718 flüchtig, wie beispielsweise RAM, nichtflüchtig, wie beispielsweise ROM, Flash-Speicher usw., oder eine Kombination der beiden sein. Diese Konfiguration ist in 7 durch die gestrichelte Linie 714 veranschaulicht. 7 illustrates a system 700 which is a computing device 712 that is configured to implement an aspect provided herein. In one configuration, the computing device closes 712 at least one processing unit 716 and a memory 718 on. Depending on the exact configuration and the type of computing device, the memory 718 volatile, such as RAM, non-volatile, such as ROM, flash memory, etc., or a combination of the two. This configuration is in 7 through the dashed line 714 illustrated.

In anderen Gesichtspunkten schließt die Rechenvorrichtung 712 zusätzliche Merkmale oder Funktionen ein. Zum Beispiel kann die Rechenvorrichtung 712 zusätzlichen Speicher wie beispielsweise entfernbare Speicher oder nicht entfernbare Speicher einschließen, einschließlich, aber nicht beschränkt auf, magnetische Speicher, optische Speicher, usw. Solch ein zusätzlicher Speicher wird in 7 durch den Massenspeicher 720 veranschaulicht. In einem Gesichtspunkt befinden sich computerlesbare Anweisungen zum Implementieren eines hierin bereitgestellten Gesichtspunkts im Massenspeicher 720. Der Massenspeicher 720 kann andere computerlesbare Anweisungen zur Implementierung eines Betriebssystems, eines Anwendungsprogramms usw. speichern. Computerlesbare Anweisungen können zum Beispiel zur Ausführung durch die Verarbeitungseinheit 716 in den Speicher 718 geladen werden.In other respects, the computing device closes 712 additional features or Functions. For example, the computing device 712 include additional storage such as removable storage or non-removable storage including, but not limited to, magnetic storage, optical storage, etc. Such additional storage is disclosed in US Pat 7 through the mass storage 720 illustrated. In one aspect, computer readable instructions for implementing a point of view provided herein are in mass storage 720 . The mass storage 720 may store other computer readable instructions for implementing an operating system, application program, etc. Computer readable instructions can, for example, be executed by the processing unit 716 in the store 718 Loading.

Der Begriff „computerlesbares Medium“, wie er hierin verwendet wird, schließt Computerspeichermedien ein. Computerspeichermedien schließen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien ein, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen wie beispielsweise computerlesbaren Anweisungen oder anderen Daten implementiert sind. Der Speicher 718 und der Massenspeicher 720 sind Beispiele für Computerspeichermedien. Computerspeichermedien schließen RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVDs) oder andere optische Speicher, Magnetkassetten, Magnetband, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder irgendein anderes Medium, das verwendet werden kann, um die gewünschten Informationen zu speichern und auf das von der Rechenvorrichtung 712 zugegriffen werden kann, ein, sind aber nicht darauf beschränkt. Jedes derartige Computerspeichermedium ist Teil der Rechenvorrichtung 712.The term "computer readable medium" as used herein includes computer storage media. Computer storage media include volatile and non-volatile, removable and non-removable media that are implemented in any method or technology for storing information such as computer readable instructions or other data. The memory 718 and the mass storage 720 are examples of computer storage media. Computer storage media include RAM, ROM, EEPROM, flash memory or other storage technology, CD-ROM, digital versatile disks (DVDs) or other optical storage, magnetic cartridges, magnetic tape, magnetic disk storage or other magnetic storage devices or any other medium that can be used to store the save the desired information and on that from the computing device 712 can be accessed, but are not limited to this. Each such computer storage medium is part of the computing device 712 .

Der Begriff „computerlesbares Medium“ schließt Kommunikationsmedien ein. Kommunikationsmedien verkörpern üblicherweise computerlesbare Anweisungen oder andere Daten in einem „modulierten Datensignal“, wie beispielsweise einer Trägerwelle oder einen anderen Transportmechanismus, und schließt beliebige Informationsbereitstellungsmedien ein. Der Begriff „moduliertes Datensignal“ schließt ein Signal ein, bei dem eine oder mehrere seiner Eigenschaften so eingestellt oder geändert sind, dass Informationen in dem Signal codiert werden.The term "computer-readable medium" includes communication media. Communication media typically embodies computer readable instructions or other data in a "modulated data signal", such as a carrier wave or other transport mechanism, and includes any information delivery media. The term “modulated data signal” includes a signal in which one or more of its properties are set or changed so that information is encoded in the signal.

Die Rechenvorrichtung 712 schließt (eine) Eingabevorrichtung(en) 724 ein, wie beispielsweise Tastatur, Maus, Stift, Spracheingabevorrichtung, Berührungseingabeeinrichtung, Infrarotkameras, Videoeingabevorrichtungen, oder eine beliebige andere Eingabevorrichtung. Die Ausgabevorrichtung(en) 722, wie beispielsweise ein oder mehrere Anzeigen, Lautsprecher, Drucker oder irgendeine andere Ausgabevorrichtung, können in der Rechenvorrichtung 712 eingeschlossen sein. Die Eingabevorrichtung(en) 724 und die Ausgabevorrichtung(en) 722 werden über eine drahtgebundene Verbindung, eine drahtlose Verbindung oder eine Kombination davon mit der Rechenvorrichtung 712 verbunden. Nach einem Gesichtspunkt kann eine Eingabevorrichtung oder eine Ausgabevorrichtung von einer anderen Rechenvorrichtung als Eingabevorrichtung(en) 724 oder Ausgabevorrichtung(en) 722 für die Rechenvorrichtung 712 verwendet werden. Die Rechenvorrichtung 712 kann (eine) Kommunikationsverbindung(en) 726 einschließen, um Kommunikationen mit einer oder mehreren anderen Vorrichtungen 730 zu erleichtern, wie beispielsweise über das Netzwerk 728.The computing device 712 closes input device (s) 724 such as a keyboard, mouse, pen, voice input device, touch input device, infrared cameras, video input devices, or any other input device. The output device (s) 722 , such as one or more displays, speakers, printers, or any other output device, can be in the computing device 712 be included. The input device (s) 724 and the output device (s) 722 via a wired connection, a wireless connection or a combination thereof with the computing device 712 connected. In one aspect, an input device or an output device may be from a computing device other than the input device (s) 724 or dispenser (s) 722 for the computing device 712 be used. The computing device 712 can (a) communication link (s) 726 include to establish communications with one or more other devices 730 to facilitate, such as over the network 728 .

Obwohl der Gegenstand in einer Sprache beschrieben wurde, die spezifisch für strukturelle Merkmale oder methodische Vorgänge ist, versteht es sich, dass der Gegenstand der beigefügten Ansprüche nicht notwendigerweise auf die oben beschriebenen spezifischen Merkmale oder Handlungen beschränkt ist. Vielmehr werden die vorstehend beschriebenen spezifischen Merkmale und Handlungen als beispielhafte Gesichtspunkte offenbart. Although the subject matter has been described in a language specific to structural features or methodological processes, it should be understood that the subject matter of the appended claims is not necessarily limited to the specific features or acts described above. Rather, the specific features and acts described above are disclosed as exemplary points of view.

Verschiedene Operationen von Gesichtspunkten werden hierin bereitgestellt. Die Reihenfolge, in der eine oder mehrere oder alle der Operationen beschrieben werden, sollte nicht so ausgelegt werden, dass sie impliziert, dass diese Operationen notwendigerweise ordnungsabhängig sind. Alternative Reihenfolgen werden basierend auf dieser Beschreibung gewürdigt. Weiterhin werden nicht alle Operationen notwendigerweise in jedem Gesichtspunkt bereitgestellt.Various operations from an aspect are provided herein. The order in which one or more or all of the operations are described should not be construed to imply that these operations are necessarily order-dependent. Alternative orders are appreciated based on this description. Furthermore, not all operations are necessarily provided in every aspect.

Wie in dieser Anmeldung verwendet, soll „oder“ eher ein einschließendes „oder“ als ein ausschließendes „oder“ bedeuten. Ferner kann ein einschließendes „oder“ eine beliebige Kombination davon (z. B. A, B oder irgendeine Kombination davon) einschließen. Darüber hinaus sind „ein“ und „eine“, wie in dieser Anmeldung verwendet, im Allgemeinen so zu verstehen, dass sie „ein(e) oder mehrere“ bedeuten, sofern nicht anders angegeben oder aus dem Kontext deutlich auf eine Singularform bezogen. Außerdem bedeutet mindestens eines von A und B und/oder dergleichen im Allgemeinen A oder B oder sowohl A als auch B. Weiterhin sind dahingehend, dass „schließt ein“, „verfügt über“, „hat“, „mit“ oder Varianten davon in entweder der detaillierten Beschreibung oder in den Ansprüchen verwendet wird, ein solcher Begriff so zu verstehen ist, dass er in einer Weise ähnlich zu dem Begriff „umfassend“ einschließend ist.As used in this application, "or" is intended to mean an inclusive "or" rather than an exclusive "or". Furthermore, an enclosing "or" can be any combination thereof (e.g. A , B or any combination thereof). In addition, "a" and "a" as used in this application should generally be understood to mean "one or more" unless otherwise stated or clearly related to a singular form from the context. In addition, at least one of A and B and / or the like in general A or B or both A as well as B . Furthermore, in that "includes", "has", "has", "with" or variants thereof in either the detailed description or in the claims, such a term is to be understood as such that it does so similar to the term "inclusive" is inclusive.

Weiterhin, sofern nicht anders angegeben, sollen „erster“, „zweiter“ oder dergleichen nicht unter einem zeitlichen Gesichtspunkt, einen räumlichen Gesichtspunkt, einer Reihenfolge usw. verstanden werden. Vielmehr sind solche Begriffe lediglich als Identifikatoren, Bezeichnungen usw. für Merkmale, Elemente, Artikel usw. zu verstehen. Zum Beispiel entsprechen ein erster Kanal und ein zweiter Kanal im Allgemeinen Kanal A und Kanal B oder zwei verschiedenen oder zwei identischen Kanälen oder dem gleichen Kanal. Zusätzlich bedeutet „umfassend“, „umfasst“, „einschließlich“, „einschließen“ oder dergleichen im Allgemeinen umfassend oder einschließlich, ohne darauf beschränkt zu sein.Furthermore, unless stated otherwise, “first”, “second” or the like should not be understood from a temporal point of view, a spatial point of view, an order, etc. Rather, such terms are only to be understood as identifiers, designations, etc. for features, elements, articles, etc. For example, a first channel and a second channel generally correspond to channel A and channel B or two different or two identical channels or the same channel. In addition, “comprehensive,” “includes,” “including,” “including,” or the like generally means, but is not limited to, inclusive or inclusive.

Es versteht sich, dass verschiedene der oben offenbarten und anderen Merkmale und Funktionen, oder Alternativen oder Varianten davon, vorzugsweise in viele andere unterschiedliche Systeme oder Anwendungen kombiniert werden können. Auch dass verschiedene derzeit unvorhergesehene oder unerwartete Alternativen, Modifikationen, Variationen oder Verbesserungen daran nachfolgend von Fachleuten auf diesem Gebiet der Technik vorgenommen werden können, die ebenfalls durch die folgenden Ansprüche erfasst werden.It is understood that various of the features and functions disclosed and other, or alternatives or variants thereof, disclosed above and other, preferably may be combined into many other different systems or applications. Also, that various currently unforeseen or unexpected alternatives, modifications, variations or improvements thereto can subsequently be made by those skilled in the art, which are also covered by the following claims.

Claims

Scene classification system, comprising: an image capturing device that captures a first series of individual images of an environment from a moving vehicle; an image segmentation module that identifies one or more road users in the environment based on a first neural convolution network (CNN); an image masker that generates a second series of individual images by masking one or more of the road users from the surroundings; a time classifier that classifies one or more frames of the second series of frames with one of two or more temporal predictions and generates a third series of frames that are associated with respective temporal predictions based on a scene classification model, the classification being based on a second CNN, one Long Short-Term Memory (LSTM) network and a first fully connected layer based; and a scene classifier that classifies one or more individual images of the third series of individual images based on a third CNN, a global average pooling and a second completely connected layer and generates an associated scene prediction based on the scene classification model and corresponding temporal predictions.

System for scene classification according to Claim 1 , where the two or more temporal predictions include an "approach" annotation, an "entry" annotation, and a "pass" annotation.

System for scene classification according to Claim 1 , wherein the first CNN, the second CNN or the third CNN is a Deepnet CNN or a ResNet 50 CNN.

System for scene classification according to Claim 1 , wherein the scene classification system is implemented in a vehicle and the vehicle includes a controller that enables or disables one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

System for scene classification according to Claim 4 , wherein the scene classifier classifies one or more frames of the third series of frames with a weather classification that includes clear, sunny, snow, rainy, overcast, or foggy; and wherein the controller enables or disables one or more of the sensors or one or more of the vehicle systems of the vehicle based on the weather classification.

System for scene classification according to Claim 4 wherein the scene classifier classifies one or more frames of the third series of frames with a road surface classification including dry, wet or snow; and wherein the controller enables or disables one or more of the sensors or one or more of the vehicle systems of the vehicle based on the road surface classification.

System for scene classification according to Claim 4 wherein the scene classifier classifies one or more frames of the third series of frames with an environmental classification including urban, up or down, highway or local; and wherein the controller enables or disables one or more of the sensors or one or more of the vehicle systems of the vehicle based on the environmental classification.

System for scene classification according to Claim 4 , wherein one or more of the vehicle systems are a LIDAR system or radar system.

System for scene classification according to Claim 8 The controller disables the lidar or radar system based on the scene prediction being a tunnel.

System for scene classification according to Claim 4 , with the controller prioritizing the search for traffic lights, stop signs, stop lines based on the scene prediction being an intersection.

A vehicle equipped with a scene classification system, comprising: an image capturing device that captures a first series of individual images of an environment from a moving vehicle; an image segmentation module that identifies one or more road users in the environment based on a first neural convolution network (CNN); an image masker that generates a second series of individual images by masking one or more of the road users from the surroundings; a time classifier that classifies one or more frames of the second series of frames with one of two or more temporal predictions and generates a third series of frames that are associated with respective temporal predictions based on a scene classification model, the classification being based on a second CNN, one Long Short-Term Memory (LSTM) network and a first fully connected layer based; and a scene classifier that classifies one or more frames of the third series of frames based on a third CNN, a global average pooling and a second fully connected layer and generates an associated scene prediction based on the scene classification model and corresponding temporal predictions; and a controller that enables or disables one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

Vehicle after Claim 11 , where the two or more temporal predictions may include an "approach" annotation, a "retract" annotation, and a "pass" annotation.

Vehicle after Claim 11 , wherein the first CNN, the second CNN or the third CNN is a Deepnet CNN or a ResNet 50 CNN.

Vehicle after Claim 11 wherein one or more of the vehicle systems are a LIDAR system or radar system and wherein the controller deactivates the LIDAR system or radar system based on the scene prediction being a tunnel.

Scene classification system, comprising: an image capturing device that captures a first series of individual images of an environment from a moving vehicle; a time classifier that classifies one or more frames of the first series of frames with one of two or more temporal predictions and generates a second series of frames that are associated with respective temporal predictions based on a scene classification model, the classification being based on a convolution network CNN, one Long Short-Term Memory (LSTM) network and a first fully connected layer based; and a scene classifier that classifies one or more individual images of the second series of individual images based on a second CNN, a global average pooling and a second completely connected layer and generates an associated scene prediction based on the scene classification model and corresponding temporal predictions.

System for scene classification according to Claim 15 , where the two or more temporal predictions include an "approach" annotation, a "retract" annotation, and a "pass" annotation.

System for scene classification according to Claim 15 , wherein the CNN or the second CNN is a ResNet 50-CNN.

System for scene classification according to Claim 15 , wherein the scene classification system is implemented in a vehicle and the vehicle includes a controller that enables or disables one or more sensors or one or more vehicle systems of the vehicle based on the scene prediction.

System for scene classification according to Claim 18 , wherein the scene classifier classifies one or more frames of the third series of frames with a weather classification that includes clear, sunny, snow, rainy, overcast, or foggy; and wherein the controller enables or disables one or more of the sensors or one or more of the vehicle systems of the vehicle based on the weather classification.

System for scene classification according to Claim 18 wherein the scene classifier classifies one or more frames of the third series of frames with a road surface classification including dry, wet or snow; and wherein the controller enables or disables one or more of the sensors or one or more of the vehicle systems of the vehicle based on the road surface classification.