DE102017128082A1

DE102017128082A1 - Meta-architecture design for a CNN network

Info

Publication number: DE102017128082A1
Application number: DE102017128082.0A
Authority: DE
Inventors: Senthil Kumar Yogamani
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2019-05-29

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Designen und Trainieren einer Meta-Architektur eines konvolutionellen neuronalen Netzwerks (CNN) (50), mit den Schritten zum Konstruieren eines Basisnetzwerks mit von Trainingsdaten bestimmten Hyperparametern, Konstruieren einer Meta-Architektur, die formalisierte Erweiterungen (40, 42, 44, 46) aufweist, Ausführen einer Netzwerk-Marginalisierung und anderer Optimierungstechniken bezüglich der Meta-Architektur, Marginalisierung bezüglich anderen Meta-Architektur-Variablen einschließlich einer Brute-Force-Suche nach Konfigurationen mit variabler Größe, Verfeinern einer Netzwerktopologie und von Basis-Hyperparametern durch Ausführen eines Batch-Updates bezüglich der Trainingsdaten über mehrere Iterationen. Die vorliegende Erfindung betrifft außerdem eine Verwendung des vorstehenden Verfahrens. Die vorliegende Erfindung betrifft weiterhin ein Fahrunterstützungssystem für ein Kraftfahrzeug, wobei das Fahrunterstützungssystem dafür konfiguriert ist, das vorstehende Verfahren auszuführen. Die vorliegende Erfindung betrifft ferner ein nichtflüchtiges computerlesbares Medium, das darauf gespeicherte Befehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem veranlassen, das vorstehende Verfahren auszuführen. Die vorliegende Erfindung betrifft außerdem ein Kraftfahrzeug mit einem Fahrunterstützungssystem mit einer Datenverarbeitungseinrichtung, wobei die auf dem nichtflüchtigen computerlesbaren Medium gespeicherten Befehle durch die Datenverarbeitungseinrichtung des Fahrunterstützungssystems ausgeführt werden.The present invention relates to a method for designing and training a convolutional neural network (CNN) meta-architecture (50) comprising the steps of constructing a base network with hyperparameters determined by training data, constructing a meta-architecture, formalized extensions (40, 40), 42, 44, 46), performing network marginalization and other meta-architecture optimization techniques, marginalizing for other meta-architecture variables including a brute-force search for variable size configurations, refining a network topology, and baseline Hyperparameters by performing a batch update on the training data over multiple iterations. The present invention also relates to a use of the above method. The present invention further relates to a drive assisting system for a motor vehicle, wherein the drive assisting system is configured to execute the above method. The present invention further relates to a non-transitory computer readable medium having instructions stored thereon that, when executed by a processor, cause a driving support system to perform the above method. The present invention also relates to a motor vehicle having a driving support system with a data processing device, wherein the commands stored on the non-transitory computer-readable medium are executed by the data processing device of the driving support system.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Designen und Trainieren einer Meta-Architektur für ein konvolutionelles neuronales Netzwerk (Convolutional Neural Network, CNN).The present invention relates to a method for designing and training a Convolutional Neural Network (CNN) meta-architecture.

Auch betrifft die vorliegende Erfindung eine Verwendung des vorstehenden Verfahrens in einem Fahrunterstützungssystem eines Kraftfahrzeugs.Also, the present invention relates to a use of the above method in a driving support system of a motor vehicle.

Des Weiteren betrifft die vorliegende Erfindung ein Fahrunterstützungssystem für ein Kraftfahrzeug, wobei das Fahrunterstützungssystem dafür konfiguriert ist, das vorstehende Verfahren auszuführen.Furthermore, the present invention relates to a driving support system for a motor vehicle, wherein the driving support system is configured to execute the above method.

Die vorliegende Erfindung betrifft auch ein nichtflüchtiges computerlesbares Medium, das darauf gespeicherte Befehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem veranlassen, das vorstehende Verfahren auszuführen.The present invention also relates to a non-transitory computer-readable medium having instructions stored thereon that, when executed by a processor, cause a driving support system to perform the above method.

Weiterhin betrifft die vorliegende Erfindung ein Kraftfahrzeug mit einem Fahrunterstützungssystem mit einer Datenverarbeitungseinrichtung, wobei die auf dem vorstehenden nichtflüchtigen computerlesbaren Medium gespeicherten Befehle durch die Datenverarbeitungseinrichtung des Fahrunterstützungssystems ausgeführt werden.Furthermore, the present invention relates to a motor vehicle having a drive assisting system with a data processing device, wherein the commands stored on the above non-transitory computer readable medium are executed by the data processing device of the drive assisting system.

Fahrunterstützungssysteme, wie beispielsweise Fahrerassistenzsysteme, sind eines der am schnellsten wachsenden Segmente in der Automobilelektronik, und es besteht hier ein Bedarf an verbesserten Verfahren und Systemen für z.B. autonomes Fahren in verschiedenen Fahrsituationen, z.B. beim automatisierten Parken, Fahren in Verkehrsstausituationen, Fahren auf einer Autobahn und vielen anderen, die unter Verwendung verschiedener Fahrerassistenzsysteme oder allgemein von Fahrunterstützungssystemen ausgeführt werden.Driving assistance systems, such as driver assistance systems, are one of the fastest growing segments in automotive electronics, and there is a need for improved methods and systems for e.g. autonomous driving in different driving situations, e.g. in automated parking, driving in traffic congestion situations, driving on a highway, and many others that are executed using various driver assistance systems or generally by driving assistance systems.

Die Fahrunterstützungssysteme, einschließlich der Fahrerassistenzsysteme, sind Systeme, die entwickelt wurden, um Fahrzeugsysteme hinsichtlich der Sicherheit und verbessertem Fahren zu automatisieren, anzupassen und zu verbessern. Sicherheitsmerkmale sind dafür ausgelegt, Kollisionen und Unfälle vermeiden, indem sie Technologien bereitstellen, die den Fahrer vor möglichen Problemen warnen oder Kollisionen durch Implementieren von Sicherheitsmaßnahmen und Übernahme der Fahrzeugkontrolle vermeiden. In autonomen Fahrzeugen stellen die Fahrunterstützungssysteme Eingaben zum Ausführen einer Steuerung des Fahrzeugs bereit. Adaptive Merkmale können die Beleuchtung automatisieren, eine adaptive Geschwindigkeitsregelung bereitstellen, den Bremsvorgang automatisieren, Verkehrswarnungen integrieren, mit Smartphones kommunizieren, z.B. den Fahrer hinsichtlich anderer Autos oder verschiedenartiger Gefahren warnen, das Fahrzeug in der korrekten Fahrspur halten, oder anzeigen, was sich in toten Winkeln befindet. Fahrunterstützungssysteme, die die vorstehend erwähnten Fahrerassistenzsysteme beinhalten, basieren häufig auf Eingaben von mehreren Datenquellen, insbesondere von Umgebungssensoren, wie beispielsweise im Kraftfahrzeug installierte Kameras, Radarsensoren, LiDAR, Ultraschallsensoren und andere. Die Fahrunterstützungssysteme weisen häufig komplexe Algorithmen auf, z.B. zur Bilderfassung, Bildverarbeitung oder Merkmalserkennung in der Sensorinformation. Sensorinformation, die von neuronalen Netzwerken verarbeitet wird, wurde kürzlich in der Verarbeitung derartiger Eingaben von Sensordaten in Fahrerassistenzsystemen oder allgemein in Fahrunterstützungssystemen integriert.The driving assistance systems, including the driver assistance systems, are systems that have been developed to automate, adapt and improve vehicle systems in terms of safety and enhanced driving. Security features are designed to prevent collisions and accidents by providing technologies that warn the driver of potential problems or avoid collisions by implementing security measures and taking control of the vehicle. In autonomous vehicles, the driving assistance systems provide inputs for performing control of the vehicle. Adaptive features can automate the lighting, provide adaptive cruise control, automate the braking process, integrate traffic alerts, communicate with smartphones, e.g. Warn the driver about other cars or various dangers, keep the vehicle in the correct lane, or indicate what is in blind spots. Driving assistance systems incorporating the aforementioned driver assistance systems are often based on inputs from multiple data sources, particularly environmental sensors such as automotive installed cameras, radar sensors, LiDAR, ultrasonic sensors, and others. The driving assistance systems often have complex algorithms, e.g. for image acquisition, image processing or feature recognition in the sensor information. Sensor information processed by neural networks has recently been integrated into the processing of such inputs of sensor data in driver assistance systems or generally in driving support systems.

Konvolutionelle neuronale Netzwerke (CNNs) sind eine bahnbrechende Technologie, die der Öffentlichkeit unter dem allgemeinen Begriff „tiefes Lernen“ (Deep Learning) bekannt ist. Insbesondere haben CNNs zu rasanten Technologiesprüngen bei verschiedenen Computer-Vision-Aufgaben insbesondere zur Objekterkennung geführt. Eine Standardmethode bei der Verwendung von CNNs ist die Objekterkennung mit gleitendem Fenster zum Erfassen von Fußgängern, Radfahrern und/oder Fahrzeugen.Convolutional neural networks (CNNs) are a breakthrough technology known to the public under the general term "deep learning". In particular, CNNs have led to rapid technology leaps in various computer vision tasks, especially for object recognition. One standard method of using CNNs is sliding-object object detection for detecting pedestrians, cyclists, and / or vehicles.

Konvolutionelle neuronale Netzwerke sind bereits eine gängige Methode zum Lösen verschiedener Computer-Vision-Aufgaben, wie beispielsweise Bildklassifizierung, Objekterfassung, semantische Segmentierung, Bildretrieval, Bildverfolgung, Texterkennung, Stereo-Matching und viele andere. Konvolutionelle neuronale Netzwerke sind jedoch rechenintensiv, so dass eine große Herausforderung bei der Verwendung von CNNs darin besteht, effiziente Netzwerkdesigns mit ausgewogenen Kostenkriterien bereitzustellen.Convolutional neural networks are already a common method for solving various computer vision tasks, such as image classification, object detection, semantic segmentation, image retrieval, image tracking, text recognition, stereo matching, and many others. However, convolutional neural networks are computationally intensive, so a major challenge in using CNNs is providing efficient network designs with well-balanced cost criteria.

Es gibt sehr wenig Anleitungen oder Theorien hinsichtlich der Fülle von Designoptionen und Hyperparametereinstellungen von CNNs. Daher gehen viele Forscher und Anwender bei der Einrichtung von CNNs immer noch nach dem Trial-and-Error-Prinzip vor. Dies führt häufig zu einer Kopie früher verwendeter CNN-Architekturen, so dass einmal etablierte CNN-Typen häufig über eine lange Zeit erhalten bleiben. Tiefes Lernen (Deep Learning, DL) ist ein schnell voranschreitender Forschungsbereich. Die meisten Forschungsarbeiten sind grundverschieden, wobei die unterschiedlichen Ideen, die in verschiedenen Architekturen entwickelt wurden, aufgrund eines fehlenden theoretischen Hintergrunds nicht formalisiert sind.There are very few guides or theories regarding the abundance of design options and hyperparameter settings of CNNs. Therefore, many researchers and users still use the trial-and-error approach to setting up CNNs. This often results in a copy of previously used CNN architectures, so that established CNN types are often persisted for a long time. Deep Learning (DL) is a fast-moving area of research. Most research is fundamentally different, with the different ideas developed in different architectures not being formalized due to a lack of theoretical background.

Daher ist es schwierig, Ideen aus den besten Netzwerken aus der Perspektive der Anwendungsentwicklung zu kombinieren. Außerdem liegt ein Schwerpunkt der aktiven Forschung im Bereich tiefes Lernen auf Bilderkennungsproblemen. Effizienz ist typischerweise kein Designkriterium in der akademischen Forschung, so dass ein Großteil der maßgeblichen Netzwerke sehr groß ist und Hunderte von Schichten aufweist und ein Ensemble mehrerer Netzwerke verwendet. Dies ist in einem automobilen Anwendungsfall, insbesondere für eine eingebettete Verwendung, nicht anwendbar. Therefore, it is difficult to combine ideas from the best networks from the perspective of application development. In addition, active research in the area of deep learning focuses on image recognition problems. Efficiency is typically not a design criterion in academic research, so much of the relevant networks are very large, with hundreds of layers and an ensemble of multiple networks. This is not applicable in an automotive application, especially for embedded use.

In dieser Hinsicht offenbart die US 2017/293837 A1 ein computerimplementiertes Verfahren zum Trainieren eines tiefen neuronalen Netzwerks zum Erkennen von Verkehrsszenen von multimodalen Sensoren und Wissensdaten. Die Verkehrsszenen können z.B. Information sein, die mit anderen Fahrzeugen in Beziehung steht, die in der Umgebung eines Fahrzeugs fahren, oder Parkplatzinformation, die anzeigt, ob sich in der Umgebung des Fahrzeugs ein Parkplatz befindet oder nicht. Das computerimplementierte Verfahren beinhaltet das Empfangen von Daten von den multimodalen Sensoren und der Wissensdaten und das Extrahieren von Merkmalsabbildungen von den multimodalen Sensoren und den Wissensdaten unter Verwendung eines Verkehrsteilnehmer-Extraktors zum Erzeugen eines ersten Datensatzes, Verwendung eines Extraktors für statische Objekte zum Erzeugen eines zweiten Datensatzes und Verwendung eines Extraktors für Zusatzinformation. Das computerimplementierte Verfahren weist ferner das Trainieren des tiefen neuronalen Netzwerks mit Trainingsdaten zum Erkennen der Verkehrsszene vom Standpunkt eines Fahrzeugs auf.In this regard, the US 2017/293837 A1 a computer-implemented method for training a deep neural network to detect traffic scenes from multimodal sensors and knowledge data. The traffic scenes may be, for example, information related to other vehicles driving in the vicinity of a vehicle or parking lot information indicating whether or not there is a parking space in the vicinity of the vehicle. The computer-implemented method includes receiving data from the multimodal sensors and the knowledge data and extracting feature maps from the multimodal sensors and the knowledge data using a road user extractor to generate a first data set, using a static object extractor to generate a second data set and use of an extractor for additional information. The computer-implemented method further comprises training the deep neural network with training data to detect the traffic scene from a vehicle's viewpoint.

Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Designen und Trainieren einer Meta-Architektur eines konvolutionellen neuronalen Netzwerks (CNN), eine Verwendung des vorstehenden Verfahrens in einem Fahrunterstützungssystem eines Kraftfahrzeugs, ein Fahrunterstützungssystem für ein Kraftfahrzeug, das das vorstehende Verfahren ausführt, ein nichtflüchtiges computerlesbares Medium, das darauf gespeicherte Befehle zum Ausführen des vorstehenden Verfahrens aufweist, und ein Kraftfahrzeug bereitzustellen, das ein Fahrunterstützungssystem mit einer Datenverarbeitungseinrichtung aufweist, wobei die auf dem vorstehenden nichtflüchtigen computerlesbares Medium gespeicherten Befehle durch die Datenverarbeitungseinrichtung des Fahrunterstützungssystems ausgeführt werden, wodurch eine verbesserte Einrichtung eines konvolutionellen neuronalen Netzwerks zur Anwendung mit verschiedenartigen Trainingsdaten ermöglicht wird.It is an object of the present invention to provide a method for designing and training a convolutional neural network (CNN) meta-architecture, a use of the above method in a driving support system of a motor vehicle, a driving support system for a motor vehicle implementing the above method non-transitory computer-readable medium having instructions stored thereon for carrying out the above method, and a motor vehicle having a driving support system with data processing means, wherein the instructions stored on the above non-transitory computer-readable medium are executed by the data processing means of the driving support system, thereby providing improved means a convolutional neural network for use with various types of training data.

Die Lösung dieser Aufgabe erfolgt durch die unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.The solution to this problem is provided by the independent claims. Advantageous embodiments are specified in the subclaims.

Insbesondere wird durch die vorliegende Erfindung ein Verfahren zum Designen und Trainieren einer Meta-Architektur eines konvolutionellen neuronalen Netzwerls (CNN) angegeben, mit den Schritten zum Konstruieren eines Basisnetzwerks mit Hyperparametern, die aus Trainingsdaten bestimmt sind, Konstruieren einer Meta-Architektur, die formalisierte Erweiterungen enthält, Ausführen einer Netzwerk-Marginalisierung und anderer Optimierungstechniken bezüglich der Meta-Architektur, Marginalisierung bezüglich anderen Meta-Architektur-Variablen, einschließlich einer Brute-Force-Suche nach Konfigurationen mit variabler Größe, und Verfeinern einer Netzwerktopologie und von Basis-Hyperparametern durch Ausführen eines Batch-Update bezüglich der Trainingsdaten über mehrere Iterationen.In particular, the present invention provides a method for designing and training a Convolutional Neural Network (CNN) meta-architecture, comprising the steps of constructing a base network with hyperparameters determined from training data, constructing a meta-architecture, the formalized extensions Performing a network marginalization and other meta-architecture optimization techniques, marginalization for other meta-architecture variables, including a brute-force search for variable size configurations, and refining a network topology and basic hyperparameters by performing a Batch update regarding the training data over several iterations.

Erfindungsgemäß ist außerdem eine Verwendung des vorstehenden Verfahrens in einem Fahrunterstützungssystem eines Kraftfahrzeugs angegeben.According to the invention, a use of the above method is also specified in a driving assistance system of a motor vehicle.

Weiter ist erfindungsgemäß ein Fahrunterstützungssystem für ein Kraftfahrzeug angegeben, wobei das Fahrunterstützungssystem dafür konfiguriert ist, das vorstehende Verfahren auszuführen.Further, according to the present invention, there is provided a drive assisting system for a motor vehicle, wherein the drive assisting system is configured to execute the above method.

Ferner ist erfindungsgemäß ein nichtflüchtiges computerlesbares Medium angegeben, das darauf gespeicherte Befehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem veranlassen, das vorstehende Verfahren auszuführen.Further, according to the present invention, there is provided a non-transitory computer-readable medium having instructions stored thereon that, when executed by a processor, cause a driving support system to perform the above method.

Des Weiteren ist erfindungsgemäß ein Kraftfahrzeug angegeben, das ein Fahrunterstützungssystem mit einer Datenverarbeitungseinrichtung aufweist, wobei die in dem vorstehenden nichtflüchtigen computerlesbaren Medium gespeicherten Befehle durch die Datenverarbeitungseinrichtung des Fahrunterstützungssystems ausgeführt werden.Further, according to the present invention, there is provided a motor vehicle having a driving support system with a data processing device, wherein the commands stored in the above non-transitory computer-readable medium are executed by the data processing device of the driving support system.

Grundidee der Erfindung ist es also, ein Meta-Architektur-Design für ein Netzwerk anzugeben, das ein Gerüst verschiedener möglicher Architekturen aufweist, und das basierend auf verschiedenen herkömmlichen Netzwerkdesign-Aspekten designt ist. Daher können Designaspekte von verschiedenen Netzwerken kombiniert werden, z.B. Fractals of Fractals (Fraktale von Fraktalen), Residuals of Residuals (Residuen von Residuen), Cross-Layer-Filter, breitere Filter und Cross-Channel-Filter. Ein auf Meta-Lernen basierender Trainingsalgorithmus ermöglicht es, eine spezifische optimale Topologie des konvolutionellen neuronalen Netzwerks zu lernen. Solche Netzwerke sind leicht skalierbar, da das tiefe Lernen schnell voranschreitet. Dies ermöglicht auch ein effizientes Bottom-Up-Design für Hardware, anstatt Designs spezifisch anzupassen. Darüber hinaus kann der Mechanismus zum Lernen der besten Netzwerktopologie automatisch bereitgestellte Trainingsdaten verwenden. Insgesamt wird ein skalierbares Multi-Ebenen-Design für CNN-Architekturen bereitgestellt, indem verschiedene Aspekte in Abstraktionsebenen aufgeteilt werden, die unabhängig voneinander designt werden können.The basic idea of the invention is therefore to specify a meta-architecture design for a network which has a framework of various possible architectures and which is designed based on various conventional network design aspects. Therefore, design aspects of different networks can be combined, such as Fractals of Fractals, Residuals of Residuals, Cross-Layer Filters, Wider Filters, and Cross-Channel Filters. A training algorithm based on meta-learning makes it possible to learn a specific optimal topology of the convolutional neural network. Such networks are easily scalable as the deep Learning progresses quickly. This also allows an efficient bottom-up design for hardware rather than customizing designs. In addition, the best network topology learning mechanism can use automatically provided training data. Overall, a scalable multi-level design for CNN architectures is provided by splitting various aspects into levels of abstraction that can be designed independently.

Eine einfache CNN-Architektur ist eine lineare Kaskade von Faltungsblöcken, die typischerweise als vollständig konvolutionelle Netzwerke (Fully Convolutional Networks, FCN) bekannt ist. Ein Standarddesign besteht darin, die Merkmalsauflösung fortlaufend zu reduzieren und die Anzahl von Kanälen zu erhöhen. In dieser Architektur sind die Bildbreite und -höhe Potenzen von zwei (z.B. 640x480), so dass ein fortlaufendes Downsampling um einen Faktor von zwei ausgeführt werden kann. Designeinschränkungen beinhalten ferner das Wegfallenlassen alternativer Pixel, wodurch die Effizienz erhöht wird. Designeinschränkungen beinhalten auch Kanal-Upsampling um einen Faktor von zwei. Dadurch wird ein symmetrisches Design erzeugt. Upsampling muss jedoch nicht für alle Schichten ausgeführt werden. Es kann auf einige Schichten beschränkt sein, um die Nichtlinearität zu erhöhen. Eine noch weitere Designeinschränkung beinhaltet z.B. fünf Stufen beim Downsampling, wenn die Höhe sich auf H >> 5 verschlechtert. Außerdem ist eine 2D-Struktur für einen Decodierer nützlich und kann nicht abgeflacht werden. Die Architektur ist offen für das Hinzufügen weiterer Schichten mit der gleichen Skalierung. Dies wird vorzugsweise empirisch bestimmt. Vorzugsweise sind mindestens zehn Schichten in einem Codierer vorgesehen, und mindestens zwei Schichten sind in einem Decodierer vorgesehen (Deconv-Schichten).A simple CNN architecture is a linear cascade of convolutional blocks, typically known as Fully Convolutional Networks (FCN). A standard design is to continually reduce feature resolution and increase the number of channels. In this architecture, the image width and height are powers of two (e.g., 640x480), so that continuous down-sampling can be performed by a factor of two. Design limitations also include eliminating alternative pixels, thereby increasing efficiency. Design limitations also include channel upsampling by a factor of two. This creates a symmetrical design. However, upsampling does not have to be done on all layers. It may be limited to several layers to increase nonlinearity. Yet another design limitation includes e.g. five levels downsampling when the altitude deteriorates to H >> 5. In addition, a 2D structure is useful for a decoder and can not be flattened. The architecture is open for adding more layers with the same scale. This is preferably determined empirically. Preferably, at least ten layers are provided in an encoder and at least two layers are provided in a decoder (Deconv layers).

Durch den Schritt zum Konstruieren einer Meta-Architektur mit formalisierten Erweiterungen kann ein Gerüst einer vorgeschlagenen Meta-Architektur mit vorgeschlagenen Designkonstrukten bereitgestellt werden. Vorzugsweise werden einfache Module, die eine 5x5- oder 3x3-Faltung beinhalten, zusammen mit einem optionalen Pooling und einer Nichtlinearität verwendet. Eine 3x3-Faltung ist wegen der geringeren Anzahl von Rechenvorgängen eine beliebte Wahl. Sie weist auch eine optionale Schrittweite (Stride) auf. Wir schlagen weiter vor, ReLU oder Cross-Channel-Maxout zu wählen, wodurch ReLU und Leaky ReLU generalisiert werden. Cross-Channel kann auch als Ausgabekanal-Reduktionsmechanismus verwendet werden. Die Auflösung der Gewichte spielt eine Schlüsselrolle bei der Komplexität der Berechnung und der Speicherbandbreite. In der Regel wird 32-Bit-Gleitkomma verwendet. Wie jedoch viele empirische Nachweise zeigen, kann 8-Bit-Gleitkomma ausreichen, ohne dass die Genauigkeit wesentlich abnimmt. Einige Schichten können optional mit einer 16-Bit-Gleitkomma-Auflösung arbeiten, falls ein größerer Dynamikbereich benötigt wird. Die Entfaltung wird vorzugsweise für den Decodierabschnitt verwendet. Hierzu stehen drei Möglichkeiten zur Verfügung, nämlich Upconv, Unpooling und Deconv.The step of constructing a meta-architecture with formalized extensions can provide a framework of proposed meta-architecture with proposed design constructs. Preferably, simple modules including 5x5 or 3x3 convolution are used along with optional pooling and nonlinearity. A 3x3 convolution is a popular choice because of the reduced number of calculations. It also has an optional stride. We further suggest choosing ReLU or Cross Channel Maxout, which generalizes ReLU and Leaky ReLU. Cross-channel can also be used as an output channel reduction mechanism. The resolution of the weights plays a key role in the complexity of the calculation and the memory bandwidth. Typically, 32-bit floating point is used. However, as many empirical evidence shows, 8-bit floating point may suffice without significantly decreasing accuracy. Some layers can optionally work with a 16-bit floating-point resolution if a larger dynamic range is needed. The deployment is preferably used for the decoding section. There are three options available: Upconv, Unpooling and Deconv.

Die Wahl von Deconv ermöglicht es, einen Faltungsblock über eine transponierte Faltung nachzubilden. Eine vorgeschlagene Auswahl von Parametern wird als Startwerte für die evolutionäre Optimierungsmethode dienen. Eine solche Modulparametrisierung kann eine Faltungs-Kernelgröße von 3x3 oder 5x5, einen Faltungstyp Conv oder Deconv, eine Datenauflösung von 8 Bit oder 16 Bit und eine Schrittweite von eins oder zwei aufweisen, die Nichtlinearität ist ReLU oder Cross-Channel-Maxout, Pooling kann für eine Kernelgröße von 2x2 maximal sein, und/oder die Anzahl von Eingabe-/ Ausgabekanälen kann 4/8 betragen.The choice of Deconv makes it possible to model a convolution block via a transposed convolution. A suggested selection of parameters will serve as starting values for the evolutionary optimization method. Such a module parameterization may have a convolution kernel size of 3x3 or 5x5, convolution type Conv or Deconv, data resolution of 8 bits or 16 bits and a step size of one or two, nonlinearity is ReLU or cross channel maxout, pooling may be for a maximum kernel size of 2x2, and / or the number of input / output channels may be 4/8.

Die Architektur kann auch nichtkonvolutionelle Blöcke aufweisen. Solche nichtkonvolutionellen Blöcke können z.B. eine Regressions-/Soft-Max-Schicht, eine vollständig verbundene Schicht, d.h. eine 1x1-Faltung, eine GAP-Schicht, die eine genaue und effiziente Alternative bietet, ein 1x1-Cross-Channel-Filter, RNNs (rekurrente neuronale Netzwerke)/LSTM- (Long-Short-Term-Memory-) Netzwerke und einen Fluss/Tiefe-Geometrie-Optimierer aufweisen.The architecture may also include non-convolutional blocks. Such non-convolutional blocks may e.g. a regression / soft max layer, a fully connected layer, i. a 1x1 convolution, a GAP layer that provides an accurate and efficient alternative, a 1x1 cross-channel filter, RNNs (recurrent neural networks) / LSTM (long-short-term memory) networks, and a flow / Depth geometry optimizer.

Der Schritt zum Ausführen von Netzwerk-Marginalisierung und anderen Optimierungstechniken bezüglich der Meta-Architektur wird ausgeführt, weil die Komplexität der Meta-Architektur äußerst umfangreich sein kann. Dieses Konzept kann allgemein als Meta-Architektur-Marginalisierungslernen bezeichnet werden.The step of performing network marginalization and other optimization techniques with respect to the meta-architecture is performed because the complexity of the meta-architecture can be very extensive. This concept can be commonly referred to as meta-architecture marginalization learning.

Auf der Grundlage des vorstehend dargestellten Sachverhalts ist die Dimensionalität so weit eingeschränkt worden, wobei Summationsknoten beibehalten werden. Daher wird es insbesondere für Netzwerke mit variabler Größe schwierig, das CNN zu modellieren und zu optimieren. Dieses Problem kann mit dem vorgeschlagenen Meta-Architektur-Marginalisierungslernen gelöst werden.On the basis of the above-described facts, the dimensionality has been restricted so much that summation nodes are retained. Therefore, especially for variable size networks, it becomes difficult to model and optimize the CNN. This problem can be solved with the proposed meta-architecture marginalization learning.

Im letzten Verfeinerungsschritt wird eine Optimierung der gesamten Netzwerktopologie und der Basis-Hyperparameter erreicht.In the final refinement step, optimization of the entire network topology and basic hyperparameters is achieved.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Konstruieren eines Basisnetzwerks mit von Trainingsdaten bestimmten Hyperparametern das Initialisieren verschiedener Designoptionen und das Modellieren der Konstruktion als ein Hyperparametersuchproblem auf, um Designoptionen unter Verwendung des Bayesschen Optimierungsalgorithmus zu verfeinern. Einige der Designoptionen beinhalten z.B. Fraktale von Fraktalen, Residuen von Residuen, Cross-Layer-Filter, breitere Filter und Cross-Channel-Filter, wie bereits oben diskutiert wurde. Hyperparameter können beispielsweise Parameter wie die Lernrate, die Anzahl von Zeitabschnitten, eine Batch-Größe, eine Aktivierungsfunktion, die Anzahl verborgener Schichten und Einheiten, eine Gewichtsinitialisierung, eine Dropout-Regularisierungstechnik sowie eine Rastersuche oder eine randomisierte Suche beinhalten.According to a modified embodiment of the invention, the step of constructing a base network with hyperparameters determined by training data includes initializing various design options and modeling the design as a hyperparameters search problem to design options using Bayesian Refine optimization algorithm. Some of the design options include, for example fractals of fractals, residuals of residuals, cross-layer filters, wider filters, and cross-channel filters, as discussed above. Hyperparameters may include, for example, parameters such as the learning rate, the number of time periods, a batch size, an activation function, the number of hidden layers and units, weight initialization, a dropout regularization technique, and a raster search or a randomized search.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Konstruieren einer Meta-Architektur, die formalisierte Erweiterungen enthält, das Transformieren kritischer Netzwerkdesignaspekte in ein lernbares Format auf, wobei die Netzwerktopologie von Trainingsdaten gelernt werden kann. Daher können Trainingsdaten bereits direkt angewendet werden, um die Netzwerkstruktur zu lernen.According to a modified embodiment of the invention, the step of constructing a meta-architecture containing formalized extensions comprises transforming critical network design aspects into a learnable format, wherein the network topology can be learned from training data. Therefore, training data can already be directly applied to learn the network structure.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Transformieren kritischer Netzwerkdesignaspekte in ein lernbares Format, in dem die Netzwerktopologie von Trainingsdaten gelernt werden kann, das Starten mit dem Basisnetzwerk und das Optimieren der Netzwerktopologie unter Verwendung der Bayesschen Optimierung auf.According to a modified embodiment of the invention, the step of transforming critical network design aspects into a learnable format in which the network topology of training data can be learned, starting with the base network and optimizing the network topology using Bayesian optimization.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Konstruieren einer Meta-Architektur, die formalisierte Erweiterungen enthält, das Anwenden formalisierter Erweiterungen aus einer Gruppe, die eine breitere Filterbank, Cross-Channel-Filter, Cross-Layer-Filter, Split Branching and Summation Joining aufweist, und das Handhaben der Skalierung von Objekten auf.According to a modified embodiment of the invention, the step of constructing a meta-architecture containing formalized extensions comprises applying formalized extensions from a group comprising a broader filterbank, cross-channel filters, cross-layer filters, split branching and summation Joining and handling the scaling of objects.

In diesem Zusammenhang haben einige Netzwerke, die eine breitere Filterbank verwenden, eine verbesserte Leistungsfähigkeit gezeigt. Beispielsweise hat sich gezeigt, dass 16 breitere Schichten im Vergleich zu 1000 Schichten eine ähnliche Leistungsfähigkeit erzielen können. Dies kann Trainingsvorteile der Parallelität für das Training und/oder Schlussfolgerungen haben. Es kann auch ein merkmalsabhängiges Gating ermöglichen.In this regard, some networks that use a broader filter bank have shown improved performance. For example, it has been found that 16 broader layers can achieve similar performance compared to 1000 layers. This can have training benefits of concurrency for training and / or conclusions. It can also enable feature-dependent gating.

Darüber hinaus können Cross-Channel-Filter funktionelle Abhängigkeiten über Kanäle hinweg durch Marginalisieren eines 3D-Faltungsblocks modellieren. Inception hat es erfolgreich eingesetzt und Xception hat es optimiert.In addition, cross-channel filters can model functional dependencies across channels by marginalizing a 3D folding block. Inception has used it successfully and Xception has optimized it.

Cross-Layer-Verbindungen bieten ein exponentielles Ensemble bezüglich der Funktion. Resnet-Skip-Verbindungen waren der einfachste Weg, um dies umzusetzen. Dann hat DenseNet es bis zum Äußersten gebracht, indem alle Schichten Verbindungen von ihren vorherigen haben. Highway Net nutzte erlernbare Skip-Verbindungen von Daten, um Cross-Layer-Filter bereitzustellen.Cross-layer connections provide an exponential ensemble in terms of function. Resnet-Skip connections were the easiest way to do this. Then DenseNet has brought it to extremes, with all layers having connections from their previous ones. Highway Net used learnable skip connections of data to provide cross-layer filters.

In Bezug auf Split Branching and Summation Joining ist anzumerken, dass ein beliebter Trend hin zu stark genutzten Summationsknoten besteht. Es wurde von Resnet für Skip-Verbindungen eingeführt. Es ist viel effizienter als Verkettungsverbindungen, durch die die Merkmalsdimensionalität erhöht wird. Es ist ohne weiters möglich, DMA_3D in einem CNN HW-Block zu nutzen. Eine weitere Verwendung findet sich in ResNeXt, das sich über mehr parallele Pfade erstreckt, und PolyNet verallgemeinert es und erzielt Effizienz.With regard to split branching and summation joining, it should be noted that there is a popular trend towards heavily used summation nodes. It was introduced by Resnet for skip connections. It is much more efficient than daisy-chain connections, which increases feature dimensionality. It is easily possible to use DMA_3D in a CNN HW block. Another use is in ResNeXt, which spans more parallel paths, and PolyNet generalizes and achieves efficiency.

Die Handhabung der Skalierung von Objekten ist wichtig geworden, als sich herausstellte, dass CNNs nicht skaleninvariant sind, wie theoretische Erkenntnisse gezeigt haben. Es gibt genügend empirische Nachweise, um die explizite Handhabung der Skalierung zu veranschaulichen. Dies ist wichtig bei der Analog/Digital-Umwandlung, insbesondere für die Handhabung kleiner Objekte. Dilated Convolutions sind für die Handhabung von Multi-Scales beliebt und können als Multi-Scale-Bilder mit verschiedenen Schrittweiten abgebildet werden. Die bevorzugte Designoption besteht in der Multi-Scale-Merkmalsabbildung, wie sie in SSDs verwendet werden, in denen Multi-Scale-Merkmalsabbildungen und MS-CNN-Unified-Multi-Scale integriert sind.Handling the scaling of objects has become important as it turned out that CNNs are not scale invariant, as theoretical findings have shown. There is enough empirical evidence to illustrate the explicit handling of scaling. This is important in analog-to-digital conversion, especially for handling small objects. Dilated convolutions are popular for handling multi-scales and can be mapped as multi-scale images at various increments. The preferred design option is the multi-scale feature mapping used in SSDs incorporating multi-scale feature mappings and MS-CNN unified multi-scale.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Ausführen von Netzwerk-Marginalisierung und anderen Optimierungstechniken bezüglich der Meta-Architektur einen ersten Schritt zum Einfrieren eines ersten Satzes von Aspekten und Optimieren eines zweiten, anderen Satzes von Aspekten und einen zweiten Schritt zum Einfrieren des zweiten Satzes von Aspekten und Optimieren des ersten Satzes von Aspekten auf.According to a modified embodiment of the invention, the step of performing network marginalization and other meta-architecture optimization techniques comprises a first step of freezing a first set of aspects and optimizing a second, different set of aspects and a second step of freezing the second one Set of aspects and optimizing the first set of aspects.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Transformieren kritischer Netzwerkdesignaspekte in ein lernbares Format das sequentielle Iterieren über verschiedene Kombinationen von Aspekten auf. Daher kann zur Vereinfachung eine Marginalisierung bezüglich allen anderen Meta-Architekturvariablen ausgeführt werden. Darüber hinaus kann eine Brute-Force-Suche nach Konfigurationen mit variabler Größe ausgeführt werden.According to a modified embodiment of the invention, the step of transforming critical network design aspects into a learnable format comprises sequentially iterating over various combinations of aspects. Therefore, for simplicity, marginalization can be performed with respect to all other meta-architecture variables. In addition, a brute force search for variable size configurations can be performed.

Gemäß einer modifizierten Ausführungsform der Erfindung weist der Schritt zum Verfeinern einer Netzwerktopologie und von Basis-Hyperparametern das Identifizieren einer Divergenz und das Stoppen der Iterationen im Falle einer erfassten Divergenz auf. Im Falle einer Divergenz kann, wenn die Iterationen gestoppt werden, ein vorheriges optimales Netzwerk beibehalten werden.According to a modified embodiment of the invention, the step of refining a network topology and basic hyperparameters comprises identifying a divergence and stopping the iterations in case of a detected divergence. In case of divergence, if the iterations stopped maintaining a previous optimal network.

Diese und andere Aspekte der Erfindung werden anhand der nachfolgend beschriebenen Ausführungsformen ersichtlich und erläutert. Einzelne Merkmale, die in den Ausführungsformen offenbart sind, können alleine oder in Kombination einen Aspekt der vorliegenden Erfindung bilden. Merkmale der verschiedenen Ausführungsformen können von einer Ausführungsform auf eine andere Ausführungsform übertragen werden.These and other aspects of the invention will be apparent from and elucidated with reference to the embodiments described below. Individual features disclosed in the embodiments may, alone or in combination, form an aspect of the present invention. Features of the various embodiments may be transferred from one embodiment to another embodiment.

Es zeigen:

1 eine perspektivische Ansicht einer Szene, die auf eine Objekterkennung unter Verwendung eines konvolutionellen neuronalen Netzwerks gemäß einer ersten Ausführungsform angewendet wird;
2 ein Ablaufdiagramm eines Verfahrens zum Designen und Trainieren einer Meta-Architektur eines konvolutionellen neuronalen Netzwerks (CNN) zum Bereitstellen des zur Szenenerkennung verwendeten konvolutionellen neuronalen Netzwerks gemäß der ersten Ausführungsform;
3 eine schematische Ansicht eines Fully Convolutional Network (FCN), das eine lineare Kaskade von mehreren Faltungsblöcken aufweist;
4 eine schematische Ansicht des Fully Convolutional Network (FCN) von 3, das eine lineare Kaskade von mehreren Faltungsblöcken aufweist, die die Merkmalsauflösung fortlaufend reduzieren, mit einer zusätzlichen Eingabeschicht und einer Ausgabeschicht;
5 eine schematische Ansicht eines Gerüsts einer vorgeschlagenen Meta-Architektur mit vorgeschlagenen Designkonstrukten, die das FCN von 3 und Module und Verbindungen zum/vom FCN enthalten, gemäß der ersten Ausführungsform;
6 eine schematische Ansicht eines einzelnen Moduls mit vier Eingangskanälen und acht Ausgangskanälen;
7 eine schematische Ansicht zweier Darstellungen einer breiteren Filterbank als eine erste formalisierte Erweiterung;
8 eine schematische Ansicht zweier Darstellungen eines Cross-Channel-Filters als eine zweite formalisierte Erweiterung;
9 eine schematische Ansicht einer Darstellung eines Cross-Layer-Filters als eine dritte formalisierte Erweiterung;
10 eine schematische Ansicht dreier Darstellungen eines Cross-Layer-Filters als eine dritte formalisierte Erweiterung;
11 eine schematische Ansicht dreier Darstellungen der Handhabung einer Skalierung von Objekten als eine vierte formalisierte Erweiterung; und
12 eine schematische Ansicht einer Anwendung des designten und trainierten konvolutionellen neuronalen Netzwerks.

Show it:

1 a perspective view of a scene that is applied to an object recognition using a convolutional neural network according to a first embodiment;
2 3 is a flowchart of a method for designing and training a convolutional neural network (CNN) meta-architecture for providing the convolutional neural network used for scene detection according to the first embodiment;
3 a schematic view of a Fully Convolutional Network (FCN), which has a linear cascade of multiple convolution blocks;
4 a schematic view of the Fully Convolutional Network (FCN) of 3 comprising a linear cascade of multiple convolution blocks that progressively reduce feature resolution, with an additional input layer and an output layer;
5 a schematic view of a framework of a proposed meta-architecture with proposed design constructs, the FCN of 3 and modules and connections to / from the FCN according to the first embodiment;
6 a schematic view of a single module with four input channels and eight output channels;
7 a schematic view of two representations of a wider filter bank as a first formalized extension;
8th a schematic view of two representations of a cross-channel filter as a second formalized extension;
9 a schematic view of a representation of a cross-layer filter as a third formalized extension;
10 a schematic view of three representations of a cross-layer filter as a third formalized extension;
11 a schematic view of three representations of handling a scaling of objects as a fourth formalized extension; and
12 a schematic view of an application of the designed and trained convolutional neural network.

1 zeigt eine Szene 10, die auf eine Objekterkennung unter Verwendung eines konvolutionellen neuronalen Netzwerks (CNN) 50 gemäß einer ersten Ausführungsform angewendet wird. Wie in 1 ersichtlich ist, beinhaltet die Szene 10 zwei Personen 12, ein Fahrzeug 14, einen Parkplatz 16 und eine Straße 18 als erfasste Merkmale. 1 shows a scene 10 Related to Object Recognition Using a Convolutional Neural Network (CNN) 50 is applied according to a first embodiment. As in 1 can be seen, includes the scene 10 Two people 12 , a vehicle 14 , a parking lot 16 and a street 18 as recorded characteristics.

Die vorstehende Szene 10 wird in einem Kraftfahrzeug ausgewertet, das ein Fahrunterstützungssystem mit einer in den Figuren nicht dargestellten Kamera aufweist. Zur Erkennung der Szene 10 verwendet das Fahrunterstützungssystem ein konvolutionelles neuronales Netzwerk 50.The preceding scene 10 is evaluated in a motor vehicle having a driving support system with a camera, not shown in the figures. To recognize the scene 10 The driving support system uses a convolutional neural network 50 ,

2 zeigt ein Ablaufdiagramm eines Verfahrens zum Designen und Trainieren einer Meta-Architektur eines konvolutionellen neuronalen Netzwerks (CNN) 50, um das CNN 50 für das vorstehende Fahrzeug bereitzustellen. Das CNN 50 ist beispielhaft in 12 dargestellt. 2 FIG. 3 shows a flowchart of a method for designing and training a meta-architecture of a convolutional neural network (CNN) 50 to the CNN 50 to provide for the above vehicle. The CNN 50 is exemplary in 12 shown.

Das Verfahren beginnt mit Schritt S100, der sich auf das Konstruieren eines Basisnetzwerks mit von Trainingsdaten bestimmten Hyperparametern bezieht. Daher werden verschiedene Designoptionen initialisiert, und die Konstruktion des Basisnetzwerks wird als Hyperparameter-Suchproblem modelliert, um Designoptionen unter Verwendung des Bayesschen Optimierungsalgorithmus zu verfeinern. Einige der Designoptionen beinhalten z.B. Fraktale von Fraktalen, Residuen von Residuen, Cross-Layer-Filter, breitere Filter und Cross-Channel-Filter. Hyperparameter können beispielsweise Parameter aufweisen, die eine Lernrate, die Anzahl von Zeitabschnitten, eine Batch-Größe, eine Aktivierungsfunktion, die Anzahl verborgener Schichten und Einheiten, eine Gewichtsinitialisierung, eine Dropout-Regularisierungstechnik sowie eine Rastersuche oder eine randomisierte Suche umfassen.The procedure begins with step S100 which relates to constructing a base network with hyperparameters determined by training data. Therefore, various design options are initialized and the construction of the base network is modeled as a hyper-parameter search problem to refine design options using the Bayesian optimization algorithm. Some of the design options include fractal fractals, residuals residuals, cross-layer filters, wider filters, and cross-channel filters. For example, hyperparameters may include parameters including a learning rate, the number of time periods, a batch size, an activation function, the number of hidden layers and units, a weight initialization, a dropout regularization technique, and a raster search or a randomized search.

Eine einfache CNN-Architektur ist ein Fully Convolutional Network (FCN) 20, das z.B. in 3 dargestellt ist. Das Fully Convolutional Network 20 weist eine lineare Kaskade von Faltungsblöcken 22 auf. Jeder der Faltungsblöcke 22 hat seinen eigenen Satz von Parametern, einschließlich als ersten Parameter eine Faltungs-Kernel-Größe, die in der Ausführungsform von 3 3x3 oder 5x5 beträgt, eine z.B. durch „/2“ angegebene Downsampling-Zahl, und als einen letzten Parameter eine Anzahl von Kanälen, die in dem in 3 dargestellten Beispiel im Bereich von 8 bis 128 liegt. Ein solches Standarddesign des FCN 20 redfuziert fortlaufend die Merkmalsauflösung und erhöht die Anzahl von Kanälen, wie in den jeweiligen Ansichten von 4 dargestellt ist. In dieser Architektur sind die Bildbreite und -höhe Potenzen von 2, z.B.: 640 x 480, bei einem Kanal-Upsampling um einen Faktor 2, wodurch ein symmetrisches Design des FCN 20 erzeugt wird. Die dargestellte Architektur ist offen für eine Hinzufügung von mehr Schichten mit der gleichen Skalierung. In diesem Beispiel sind zehn Schichten unterschiedlich konfigurierter Faltungsblöcke 22 mit einer zusätzlichen Eingabeschicht 34 und einer Ausgabeschicht 36 vorgesehen, wie in 4 dargestellt ist.A Simple CNN Architecture is a Fully Convolutional Network (FCN) 20 that eg in 3 is shown. The Fully Convolutional Network 20 indicates a linear cascade of convolution blocks 22 on. Each of the folding blocks 22 has its own set of parameters, including as a first parameter a convolutional kernel size, which in the Embodiment of 3 3x3 or 5x5, for example, a downsampling number given by "/ 2", and as a last parameter a number of channels that are in the in 3 example is in the range of 8 to 128. Such a standard design of the FCN 20 continuously redefines the feature resolution and increases the number of channels, as in the respective views of 4 is shown. In this architecture, the image width and height are powers of 2, eg 640x480, for a channel upsampling by a factor 2 , creating a symmetrical design of the FCN 20 is produced. The architecture shown is open to adding more layers with the same scale. In this example, there are ten layers of differently configured convolution blocks 22 with an additional input layer 34 and an output layer 36 provided as in 4 is shown.

Schritt S110 bezieht sich auf die Konstruktion einer Meta-Architektur mit formalisierten Erweiterungen 40, 42, 44, 46. Dementsprechend wird ein Gerüst 24 einer vorgeschlagenen Meta-Architektur mit vorgeschlagenen Designkonstrukten gebildet, wie unter Bezug auf 5 ersichtlich ist. Das Gerüst 24 der Meta-Architektur weist ein FCN 20 mit zusätzlichen Modulen 26 auf, die in diesem Beispiel eine 5x5-Faltung aufweisen. Es sind lernbare Verbindungen 28 vorgesehen, um die zusätzlichen Module 26 mit dem FCN 20 zu verbinden. Die lernbaren Verbindungen 28 sind dafür eingerichtet, die zusätzlichen Module 26 mit verschiedenen Faltungsblöcken 22 bei verschiedenen Schichten des FCN 20 als jeweiliger Eingang und Ausgang zu verbinden. Weitere lernbare Verbindungen 28 verbinden Faltungsblöcke 22 verschiedener Schichten des FCN 20. Wie in 5 dargestellt ist, sind die zusätzlichen Module 26 durch die lernbaren Verbindungen 28 miteinander verbunden. 5 zeigt eine Anordnung von vier zusätzlichen Modulen 26, die in zwei Schichten angeordnet sind. Die lernbaren Verbindungen 28 verbinden zwei der zusätzlichen Module 26, die direkt mit dem gleichen Faltungsblock 22 als Eingang verbunden sind und eine erste Schicht bilden. Ferner sind zwei der zusätzlichen Module 26, die eine zweite Schicht bilden, direkt mit dem gleichen Faltungsblock 22 verbunden, um ihre Ausgabe diesem Faltungsblock 22 zuzuführen. Die zusätzlichen Module 26 der ersten Schicht sind vollständig mit den zusätzlichen Modulen 26 der zweiten Schicht verbunden.step S110 refers to the construction of a meta-architecture with formalized extensions 40 . 42 . 44 . 46 , Accordingly, a scaffold 24 a proposed meta-architecture with proposed design constructs, as with reference to 5 is apparent. The scaffolding 24 the meta-architecture has an FCN 20 with additional modules 26 which in this example have a 5x5 convolution. They are learnable connections 28 provided to the additional modules 26 with the FCN 20 connect to. The learnable connections 28 are set up the additional modules 26 with different folding blocks 22 at different layers of the FCN 20 to connect as respective input and output. More learnable connections 28 connect folding blocks 22 different layers of the FCN 20 , As in 5 is shown, are the additional modules 26 through the learnable connections 28 connected with each other. 5 shows an arrangement of four additional modules 26 which are arranged in two layers. The learnable connections 28 connect two of the additional modules 26 that directly with the same folding block 22 are connected as an input and form a first layer. Further, two of the additional modules 26 forming a second layer, directly with the same folding block 22 connected to their output this folding block 22 supply. The additional modules 26 the first layer are complete with the additional modules 26 connected to the second layer.

Die Module 26 können auch eine optionale Schrittweite mit ReLU-Einheiten oder Cross-Channel-Maxout aufweisen. Die Auflösung der Gewichte kann 32-Bit Gleitkomma sein. Wie jedoch viele empirische Belege zeigen, wird in einer alternativen Ausführungsform 16-Bit- oder 8-Bit-Gleitkomma gewählt. Entfaltung wird für den Decodierabschnitt verwendet, was durch Upconv, Unpooling oder Deconv erreicht wird. In dieser Ausführungsform wird Deconv gewählt. Ferner können die Module eine Schrittweite von eins oder zwei, ein Pooling, das für eine Kernelgröße von 2x2 maximal ist, und/oder eine Anzahl von Eingangs-/AusgangsKanälen 30, 32 von 4/8 aufweisen. Ein einzelnes Modul 26 ist in 6 dargestellt.The modules 26 can also have an optional step size with ReLU units or cross-channel maxout. The resolution of the weights can be 32-bit floating point. However, as many empirical evidence shows, in an alternative embodiment 16 Bit or 8 bit floating point selected. Unfolding is used for the decoding section, which is achieved by Upconv, Unpooling or Deconv. In this embodiment, Deconv is chosen. Further, the modules may have a one or two step size, a pooling that is maximum for a kernel size of 2x2, and / or a number of input / output channels 30 . 32 from 4/8. A single module 26 is in 6 shown.

Die Architektur kann auch nichtkonvolutionelle Blöcke aufweisen. Derartige nichtkonvolutionelle Blöcke können z.B. eine Regressions-/Soft-Max-Schicht, eine vollständig verbundene Schicht, d.h. eine 1x1-Faltung, eine GAP-Schicht, die eine genaue und effiziente Alternative bietet, ein 1x1-Cross-Channel-Filter, RNNs (rekurrente neuronale Netzwerke)/LSTM- (Long-Short-Term-Memory) Netzwerke und ein Fluss/Tiefe-Geometrie-Optimierer sein.The architecture may also include non-convolutional blocks. Such non-convolutional blocks may e.g. a regression / soft max layer, a fully connected layer, i. a 1x1 convolution, a GAP layer that provides an accurate and efficient alternative, a 1x1 cross-channel filter, RNNs (recurrent neural networks) / LSTM (long-short-term memory) networks, and a flow / Depth geometry optimizer.

Es können formalisierte Erweiterungen 40, 42, 44, 46 aus einer Gruppe verwendet werden, die eine breitere Filterbank 40, Cross-Channel-Filter 42, Cross-Layer-Filter 44, eine Handhabung der Skalierung von Objekten 46 und Split-Branching- und Summation-Joining aufweist.There can be formalized extensions 40 . 42 . 44 . 46 be used from a group that has a wider filter bank 40 , Cross-channel filter 42 , Cross-layer filter 44 , a handling of the scaling of objects 46 and having split branching and summation joining.

Einige Netzwerke, die eine breitere Filterbank 40 verwenden, haben eine verbesserte Leistungsfähigkeit gezeigt. Beispielsweise hat sich gezeigt, dass sechzehn breitere Schichten im Vergleich zu 1000 Schichten eine ähnliche Leistungsfähigkeit erzielen können. Zwei Darstellungen einer breiteren Filterbank 40 sind beispielhaft in 7 dargestellt.Some networks have a wider filter bank 40 use have shown improved performance. For example, it has been found that sixteen broader layers can achieve similar performance compared to 1000 layers. Two representations of a wider filter bank 40 are exemplary in 7 shown.

Cross-Channel-Filter 42 können funktionelle Abhängigkeiten über Kanäle durch Marginalisieren eines 3D-Faltungsblocks 22 modellieren. Die Cross-Channel-Filter 42 sind bereits erfolgreich von Inception verwendet und durch Xception optimiert worden. Zwei Darstellungen von Cross-Channel-Filtern 42 sind beispielhaft in 8 dargestellt. Cross-channel filter 42 can functional dependencies on channels by marginalizing a 3D folding block 22 model. The cross-channel filter 42 have already been successfully used by Inception and optimized by Xception. Two representations of cross-channel filters 42 are exemplary in 8th shown.

Cross-Layer-Filter 44 ermöglichen Cross-Layer-Verbindungen, die ein exponentielles Ensemble bezüglich der Funktion bereitstellen. Resnet-Skip-Verbindungen sind ein einfacher Weg zum Implementieren von Cross-Layer-Filtern 44. Es können lernbare Skip-Verbindungen von Daten verwendet werden, um Cross-Layer-Filter 44 bereitzustellen, wie durch Highway Net gezeigt wird. Verschiedene Darstellungen von Cross-Layer-Filtern 44 sind beispielhaft in den 9 und 10 dargestellt.Cross-layer filter 44 allow cross-layer connections that provide an exponential ensemble in terms of function. Resnet-skip connections are an easy way to implement cross-layer filters 44 , You can use learnable skip connections of data to cross-layer filters 44 as shown by Highway Net. Various representations of cross-layer filters 44 are exemplary in the 9 and 10 shown.

Die Handhabung der Skalierung von Objekten 46 ist wichtig geworden, um mit Merkmalen mit unterschiedlicher Auflösung umzugehen, insbesondere zum Handhaben kleiner Objekte. Dilated Convolutions sind für die Handhabung von Multi-Scale beliebt und können als Multi-Scale-Bilder mit verschiedenen Schrittweiten abgebildet werden. Verschiedene Darstellungen der Handhabung von Skalierungen von Objekten 46 sind beispielhaft in 11 dargestellt. Die bevorzugte Designoption besteht darin, Multi-Scale-Merkmalsabbildungen auszuführen, wie sie in SSDs verwendet werden, die Multi-Scale-Merkmalsabbildungen verwenden, wie in 11c dargestellt ist, und MS-CNN-vereinheitlichtes Multi-Scale.Handling the scaling of objects 46 has become important in dealing with features of different resolution, especially for handling small objects. Dilated convolutions are popular for handling multi-scale and can be mapped as multi-scale images at different increments. Various representations of handling scaling of objects 46 are exemplary in 11 shown. The preferred design option is Execute multi-scale feature maps as used in SSDs using multi-scale feature maps as in 11c and MS-CNN unified multi-scale.

Split Branching und Summation Joining bezieht sich auf die Summierung stark genutzter Knotenpunkte.Split Branching and Summation Joining refers to the summation of heavily used nodes.

Wichtige Aspekte des Netzwerkdesigns werden in ein lernfähiges Format umgewandelt, in dem die Netzwerktopologie von Trainingsdaten gelernt werden kann. Dies beinhaltet sequentielles Iterieren über verschiedene Kombinationen von Aspekten. Daher kann eine Marginalisierung bezüglich allen anderen Meta-Architektur-Variablen ausgeführt werden, und es kann eine Brute-Force-Suche nach Konfigurationen mit variabler Größe ausgeführt werden.Key aspects of network design are transformed into an adaptive format in which the network topology of training data can be learned. This involves sequential iterating over various combinations of aspects. Therefore, marginalization can be performed with respect to all other meta-architecture variables, and a brute-force search for variable size configurations can be performed.

Ausgehend von einem Basisnetzwerk, wie es z.B. in 4 dargestellt ist, wird eine Optimierung der Netzwerktopologie unter Verwendung der Bayesschen Optimierung ausgeführt.Starting from a basic network, as eg in 4 an optimization of the network topology is performed using Bayesian optimization.

Schritt S120 bezieht sich auf das Ausführen von Netzwerk-Marginalisierungs- und anderen Optimierungstechniken bezüglich der Meta-Architektur. Dies kann allgemein als Meta-Architektur-Marginalisierungslernen bezeichnet werden. Daher ist die Dimensionalität eingeschränkt, wobei Summierungsknotenpunkte erhalten bleiben.step S120 refers to performing network marginalization and other meta-architecture optimization techniques. This can be commonly referred to as meta-architecture marginalization learning. Therefore, the dimensionality is limited, with summation nodes remaining.

Gemäß Schritt S130 wird eine Marginalisierung bezüglich anderen Meta-Architekturvariablen einschließlich einer Brute-Force-Suche nach Konfigurationen variabler Größe ausgeführt. Dies beinhaltet einen ersten Schritt zum Einfrieren eines ersten Satzes von Aspekten und zum Optimieren eines zweiten, anderen Satzes von Aspekten. Anschließend wird ein zweiter Schritt zum Einfrieren des zweiten Satzes von Aspekten und zum Optimieren des ersten Satzes von Aspekten ausgeführt.According to step S130 Marginalization is performed on other meta-architecture variables, including brute-force search for variable-sized configurations. This includes a first step to freezing a first set of aspects and optimizing a second, different set of aspects. Subsequently, a second step of freezing the second set of aspects and optimizing the first set of aspects is performed.

Schritt S140 bezieht sich auf die Verfeinerung der Netzwerktopologie und der Basis-Hyperparameter, indem ein Batch-Update der Trainingsdaten über mehrere Iterationen ausgeführt wird, um die gesamte Netzwerktopologie und die Basis-Hyperparameter zu optimieren. Falls eine Divergenz festgestellt wird, werden die Iterationen gestoppt. In diesem Fall kann, wenn die Iterationen gestoppt werden, ein vorheriges optimales Netzwerk beibehalten werden.step S140 refers to the refinement of the network topology and the basic hyperparameters by performing a batch update of the training data over several iterations to optimize the entire network topology and basic hyperparameters. If a divergence is detected, the iterations are stopped. In this case, if the iterations are stopped, a previous optimal network can be maintained.

12 zeigt einen Aufbau des CNN 50 als Netzwerk des Codierer/Decodierer-Typs. Das CNN 50 empfängt eine Eingabe 52, die das CNN 50 durchläuft. Das CNN 50 weist einen Codierabschnitt 54 auf, der zunächst die Eingabe 52 verarbeitet. Das CNN 50 weist ferner einen Decodierabschnitt 56 auf, der dann eine Rekonstruktion ausführt, um eine Ausgabe 58 zu erzeugen. 12 stellt auch eine Definition von Kanälen und Filtern bereit, die in einem rechten Teil von 12 zu sehen sind. 12 shows a structure of the CNN 50 as a network of encoder / decoder type. The CNN 50 receives an input 52 that the CNN 50 passes. The CNN 50 has a coding section 54 on, the input first 52 processed. The CNN 50 also has a decoding section 56 which then performs a reconstruction to an edition 58 to create. 12 also provides a definition of channels and filters in a right part of 12 you can see.

BezugszeichenlisteLIST OF REFERENCE NUMBERS

1010: Szenescene
1212: Personperson
1414: Fahrzeugvehicle
1616: Parkplatzparking spot
1818: StraßeStreet
2020: Fully Convolutional NetworkFully Convolutional Network
2222: Faltungsblockfolding block
2424: Gerüstframework
2626: Modulmodule
2828: Verbindungconnection
3030: Eingangskanalinput channel
3232: Ausgangskanaloutput channel
3434: Eingabeschichtinput layer
3636: Ausgabeschichtoutput layer
4040: breitere Filterbankwider filter bank
4242: Cross-Channel-FilterCross-channel filter
4444: Cross-Layer-FilterCross-layer filter
4646: Handhabung der Skalierung von ObjektenHandling the scaling of objects
5050: konvolutionelles neuronales Netzwerk, CNNconvolutional neural network, CNN
5252: Eingabeinput
5454: Codierabschnittcoding
5656: DecodierabschnittDecoding section
5858: Ausgabeoutput

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

US 2017293837 A1 [0012]

Claims

A method of designing and training a meta-architecture of a convolutional neural network (CNN) (50), comprising the steps of: Constructing a base network with hyperparameters of training data; Constructing a meta-architecture having formalized extensions (40, 42, 44, 46); Performing network marginalization and other optimization techniques related to the meta-architecture; Marginalization for other meta-architecture variables, including a brute-force search for variable-size configurations; and Refining a network topology and basic hyperparameters by performing a batch update on the training data over multiple iterations.

Method according to Claim 1 characterized in that the step of constructing a basic network with hyperparameters determined by training data comprises initializing various design options and modeling the construction as a hyperparameters search problem to refine design options using the Bayesian optimization algorithm.

Method according to Claim 1 or 2 characterized in that the step of constructing a meta-architecture having formalized extensions comprises transforming critical network design aspects into a learnable format, wherein the network topology can be learned from training data.

Method according to Claim 3 characterized in that the step of transforming critical network design aspects into a learnable format wherein the network topology can be learned from training data comprises starting with the base network and optimizing the network topology using Bayesian optimization.

A method according to any one of the preceding claims, characterized in that the step of constructing a meta-architecture having formalized extensions (40, 42, 44, 46) comprises applying formalized extensions (40, 42, 44, 46) from a group comprising a broader filterbank (40), cross-channel filters (42), cross-layer filters (44), split-branching and summation-joining, and handling scaling of objects (46).

A method according to any one of the preceding claims, characterized in that the step of performing network marginalization and other optimization techniques related to the meta-architecture comprises a first step of freezing a first set of aspects and optimizing a second, another set of aspects and a second step for freezing the second set of aspects and optimizing the first set of aspects.

Method according to Claim 6 characterized in that the step of transforming critical network design aspects into a learnable format comprises sequentially iterating over various combinations of aspects.

The method of any one of the preceding claims, characterized in that the step of refining a network topology and basic hyperparameters comprises identifying a divergence and stopping the iterations in case of a detected divergence.

Use of the method according to one of Claims 1 to 8th in a driving support system of a motor vehicle.

A driving assistance system for a motor vehicle, wherein the driving support system is configured to perform the method of any one of Claims 1 to 8th perform.

A non-transitory computer-readable medium having instructions stored therein that, when executed by a processor, cause a driving support system to perform the method of any one of Claims 1 to 8th perform.

A motor vehicle comprising: a driving support system having a data processing device, wherein the non-transitory computer-readable medium according to Claim 11 stored commands are executed by the data processing device of the driving support system.