DE102018100315A1 - Generating input data for a convolutional neural network - Google Patents
Generating input data for a convolutional neural network Download PDFInfo
- Publication number
- DE102018100315A1 DE102018100315A1 DE102018100315.3A DE102018100315A DE102018100315A1 DE 102018100315 A1 DE102018100315 A1 DE 102018100315A1 DE 102018100315 A DE102018100315 A DE 102018100315A DE 102018100315 A1 DE102018100315 A1 DE 102018100315A1
- Authority
- DE
- Germany
- Prior art keywords
- camera
- coordinate system
- area sensor
- coordinates
- motor vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Abstract
Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk unter Verwendung mindestens einer Kamera (3) und mindestens eines Bereichssensors (5, 6), wobei die Kamera (3) und der Bereichssensor (5, 6) derart am Kraftfahrzeug (1) angeordnet sind, dass das Sichtfeld der Kamera (3) und das Sichtfeld des Bereichssensors (5, 6) sich zumindest teilweise überlappen, wobei das Verfahren die folgenden Schritte aufweist:
- Erfassen eines Bildrahmens durch die Kamera (3), wobei der Bildrahmen aus Bilddaten für Richtungen relativ zur Position der Kamera (3) und innerhalb des durch die Kamera (3) abgedeckten Raumwinkels besteht, wobei die Richtungen durch Koordinaten in einem Kamerakoordinatensystem dargestellt werden,
- gleichzeitiges Erfassen von Tiefeninformation durch den Bereichssensor (5, 6), wobei die Tiefeninformation aus Tiefendaten für Richtungen relativ zur Position des Bereichssensors (5, 6) und innerhalb des durch den Bereichssensor (5, 6) abgedeckten Raumwinkels bestehen, wobei die Richtungen durch Koordinaten in einem Bereichssensorkoordinatensystem dargestellt werden,
- Bereitstellen eines Kraftfahrzeugkoordinatensystems, das mit dem Kamerakoordinatensystem und dem Bereichssensorkoordinatensystem durch entsprechende Sätze von Translationen und Rotationen in Beziehung steht, die durch die Position der Kamera (3) und die Position des Bereichssensors (5, 6) relativ zum Ursprung des Kraftfahrzeugkoordinatensystems gegeben sind, und
- Transformieren der Koordinaten im Kamerakoordinatensystem und der Koordinaten im Bereichssensorkoordinatensystem in Koordinaten im Kraftfahrzeugkoordinatensystem auf der Basis der Sätze von Translationen und Rotationen, wodurch die Eingabedaten für das konvolutionelle neurale Netzwerk erhalten werden. Auf diese Weise kann eine semantische Segmentierung von Objekten in einem Bild in automobilem Computer Vision verbessert werden.
The present invention relates to a method for generating input data for a convolutional neural network using at least one camera (3) and at least one range sensor (5, 6), wherein the camera (3) and the range sensor (5, 6) on the motor vehicle (1) that the field of view of the camera (3) and the field of view of the area sensor (5, 6) overlap at least partially, the method comprising the following steps:
Capturing an image frame by the camera (3), the image frame consisting of image data for directions relative to the position of the camera (3) and within the solid angle covered by the camera (3), the directions being represented by coordinates in a camera coordinate system,
simultaneous detection of depth information by the area sensor (5, 6), the depth information consisting of depth data for directions relative to the position of the area sensor (5, 6) and within the space angle covered by the area sensor (5, 6), the directions passing through Coordinates are displayed in a range sensor coordinate system,
Providing a motor vehicle coordinate system related to the camera coordinate system and the area sensor coordinate system by respective sets of translations and rotations given by the position of the camera (3) and the position of the area sensor (5, 6) relative to the origin of the motor vehicle coordinate system, and
Transforming the coordinates in the camera coordinate system and the coordinates in the area sensor coordinate system into coordinates in the motor vehicle coordinate system on the basis of the sets of translations and rotations, thereby obtaining the input data for the convolutional neural network. In this way, a semantic segmentation of objects in an image in Automobile Computer Vision can be improved.
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerks unter Verwendung mindestens einer Kamera und mindestens eines Bereichssensors.The present invention relates to a method for generating input data for a convolutional neural network using at least one camera and at least one area sensor.
Eines der grundlegendsten Probleme bei automobilem Computer Vision ist die semantische Segmentierung von Objekten in einem Bild. Der Segmentierungsansatz bezieht sich auf die Probleme der Zuordnung jedes Pixels zu seiner entsprechenden Objektklasse. In jüngster Zeit gab es einen sprunghaften Anstieg der Erforschung und des Designs konvolutioneller neuronaler Netzwerke (CNN), unterstützt durch eine Erhöhung der Rechenleistung in Computerarchitekturen und die Verfügbarkeit großer annotierter Datensätze.One of the most fundamental problems with automotive computer vision is the semantic segmentation of objects in an image. The segmentation approach refers to the problems of associating each pixel with its corresponding feature class. Recently, there has been a spike in research and design of convolutional neural networks (CNN), supported by increased computational power in computer architectures and the availability of large annotated datasets.
CNNs sind sehr erfolgreich bei Klassifizierungs- und Kategorisierungsaufgaben, aber ein großer Teil der Forschung befasst sich mit standardmäßigen photometrischen RGB-Bildern und konzentriert sich nicht auf eingebettete automobile Vorrichtungen. Automobile Hardware muss einen niedrigen Stromverbrauch und damit eine geringe Rechenleistung haben.CNNs are very successful in classifying and categorizing tasks, but much of the research is on standard RGB RGB photometric images and does not focus on embedded automotive devices. Automobile hardware must have a low power consumption and thus a low computing power.
Beim maschinellen Lernen ist ein konvolutionelles neuronales Netzwerk eine Klasse tiefer, vorwärtsgekoppelter künstlicher neuronaler Netzwerke, die erfolgreich zur Analyse visueller Bilder verwendet wurden. CNNs verwenden eine Variation mehrschichtiger Perzeptronen, die so designt sind, dass sie eine minimale Vorverarbeitung erfordern. Konvolutionelle Netzwerke wurden durch biologische Prozesse inspiriert, bei denen das Konnektivitätsmuster zwischen Neuronen durch die Organisation des tierischen visuellen Kortex inspiriert ist. Einzelne kortikale Neuronen reagieren auf Stimuli nur in einem eingeschränkten Bereich des visuellen Feldes, der als rezeptives Feld bekannt ist. Die rezeptiven Felder verschiedener Neuronen überlappen sich teilweise, so dass sie das gesamte visuelle Feld abdecken.In machine learning, a convolutional neural network is a class of deep, feedforward artificial neural networks that has been successfully used to analyze visual images. CNNs use a variation of multilayer perceptrons that are designed to require minimal preprocessing. Convolutional networks have been inspired by biological processes in which the connectivity pattern between neurons is inspired by the organization of the animal visual cortex. Individual cortical neurons respond to stimuli only in a restricted area of the visual field known as the receptive field. The receptive fields of different neurons partially overlap so that they cover the entire visual field.
CNNs verwenden relativ wenig Vorverarbeitung im Vergleich zu anderen Bildklassifizierungsalgorithmen. Dies bedeutet, dass das Netzwerk die Filter lernt, die in herkömmlichen Algorithmen von Hand entwickelt wurden. Diese Unabhängigkeit von vorherigem Wissen und menschlichem Arbeitsaufwand beim Merkmalsdesign ist ein großer Vorteil. CNNs finden Anwendung in der Bild- und Videoerkennung, in Empfehlungssystemen und bei natürlicher Sprachverarbeitung.CNNs use relatively little preprocessing compared to other image classification algorithms. This means that the network learns the filters that have been manually developed in conventional algorithms. This independence of prior knowledge and human effort in feature design is a great advantage. CNNs are used in image and video recognition, recommendation systems and natural language processing.
Der Artikel „Multimodal Deep Learning for Robust RGB-D Object Recognition, Andreas Eitel, Jost Tobias Springenberg, Luciano Spinello, Martin Riedmiller, Wolfram Burgard, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hamburg, Deutschland, 2015“ schlägt eine RGB-D-Architektur zur Objekterkennung vor. Diese Architektur besteht aus zwei separaten CNN-Verarbeitungsströmen - einer für jede Modalität - die aufeinanderfolgend mit einem Late-Fusions-Netzwerk kombiniert sind. Der Fokus liegt auf dem Lernen mit unvollkommenen Sensordaten, ein typisches Problem bei realen Robotikaufgaben. Für genaues Lernen werden eine mehrstufige Trainingsmethodik und zwei entscheidende Faktoren für die Handhabung von Tiefendaten mit CNNs eingeführt. Der erste ist eine effektive Kodierung von Tiefeninformationen für CNNs, die ein Lernen ohne das Erfordernis für große Tiefen-Datensätze ermöglicht. Der zweite ist ein Datenerweiterungsschema für robustes Lernen mit Tiefenbildern, indem diese mit realistischen Rauschmustern verschlechtert werden.The article "Multimodal Deep Learning for Robust RGB-D Object Recognition, Andreas Eitel, Jost Tobias Springenberg, Luciano Spinello, Martin Riedmiller, Wolfram Burgard, IEEE / RSJ International Conference on Intelligent Robotics and Systems (IROS), Hamburg, Germany, 2015" proposes an RGB-D architecture for object recognition. This architecture consists of two separate CNN processing streams - one for each modality - that are sequentially combined with a late-fusion network. The focus is on learning with imperfect sensor data, a typical problem in real robotics tasks. For accurate learning, a multi-level training methodology and two key factors for handling depth data with CNNs are introduced. The first is effective encoding of depth information for CNNs, which allows learning without the need for large depth data sets. The second is a data enhancement scheme for robust learning with depth images by degrading them with realistic noise patterns.
Aus der
Der Erfindung liegt die Aufgabe zugrunde, eine Möglichkeit zum Verbessern einer semantischen Segmentierung von Objekten in einem Bild in automobilem Computer Vision anzugeben.The invention has for its object to provide a way to improve a semantic segmentation of objects in an image in automotive vision computer.
Die Lösung der Aufgabe erfolgt durch den Gegenstand der unabhängigen Ansprüche. Bevorzugte Ausgestaltungen sind in den Unteransprüchen angegeben.The object is achieved by the subject matter of the independent claims. Preferred embodiments are specified in the subclaims.
Durch die Erfindung wird daher ein Verfahren zum Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk unter Verwendung mindestens einer Kamera und mindestens eines Bereichssensors bereitgestellt, wobei die Kamera und der Bereichssensor derart am Kraftfahrzeug angeordnet sind, dass das Sichtfeld der Kamera und das Sichtfeld des Bereichssensors sich mindestens teilweise überlappen, wobei das Verfahren die folgenden Schritte aufweist:
- - Erfassen eines Bildrahmens durch eine Kamera, wobei der Bildrahmen aus Bilddaten für Richtungen relativ zur Position der Kamera und innerhalb des durch die Kamera abgedeckten Raumwinkels besteht, wobei die Richtungen durch Koordinaten in einem Kamerakoordinatensystem dargestellt werden,
- - gleichzeitiges Erfassen von Tiefeninformation durch den Bereichssensor, wobei die Tiefeninformation aus Tiefendaten für Richtungen relativ zur Position des Bereichssensors und innerhalb des durch den Bereichssensor abgedeckten Raumwinkels bestehen, wobei die Richtungen durch Koordinaten in einem Bereichssensorkoordinatensystem dargestellt werden,
- - Bereitstellen eines Kraftfahrzeugkoordinatensystems, das mit dem Kamerakoordinatensystem und dem Bereichssensorkoordinatensystem durch entsprechende Sätze von Translationen und Rotationen in Beziehung steht, die durch die Position der Kamera und die Position des Bereichssensors relativ zum Ursprung des Kraftfahrzeugkoordinatensystems gegeben sind, und
- - Transformieren der Koordinaten im Kamerakoordinatensystem und der Koordinaten im Bereichssensorkoordinatensystems in Koordinaten im Kraftfahrzeugkoordinatensystem auf der Basis der Sätze von Translationen und Rotationen, wodurch die Eingabedaten für das konvolutionelle neurale Netzwerk erhalten werden.
- Capturing an image frame by a camera, the image frame consisting of image data for directions relative to the position of the camera and within the solid angle covered by the camera, the directions being represented by coordinates in a camera coordinate system,
- - simultaneous detection of depth information by the range sensor, the depth information consisting of depth data for directions relative to the position of the range sensor and within the solid angle covered by the range sensor, the directions being represented by coordinates in an area sensor coordinate system,
- Providing a motor vehicle coordinate system related to the camera coordinate system and the area sensor coordinate system through respective sets of translations and rotations given by the position of the camera and the position of the area sensor relative to the origin of the motor vehicle coordinate system, and
- Transforming the coordinates in the camera coordinate system and the coordinates in the area sensor coordinate system into coordinates in the motor vehicle coordinate system on the basis of the sets of translations and rotations, thereby obtaining the input data for the convolutional neural network.
Es ist also eine wesentliche Idee der Erfindung, dass die Eingabedaten für das konvolutionelle neuronale Netzwerk sowohl Bilddaten als auch Tiefendaten für gemeinsame Betrachtungsrichtungen relativ zum Ursprung des Kraftfahrzeugkoordinatensystems aufweisen, wobei die Richtungen durch Koordinaten des gemeinsamen Kraftfahrzeugkoordinatensystems dargestellt werden, das als ein gemeinsames Bezugssystem dient. Mit anderen Worten: Die Eingabedaten für das konvolutionelle neuronale Netzwerk bestehen aus Bilddaten und Tiefendaten für im Kraftfahrzeugkoordinatensystem dargestellte Richtungen, obwohl derartige Daten ursprünglich als Daten im Koordinatensystem der Kamera bzw. des Bereichssensors dargestellt waren. Die Transformation dieser Daten in das gemeinsame Kraftfahrzeugkoordinatensystem bietet die Möglichkeit, Daten von verschiedenen Sensoren/Kameras in einem gemeinsamen Datensatz zu verwenden, der in das konvolutionelle neuronale Netzwerk eingegeben wird. Vorzugsweise erfasst die Kamera fortlaufend Bildrahmen, und der Bereichssensor erfasst fortlaufend Tiefeninformation. Vorzugsweise wird als ein letzter Schritt des vorstehend beschriebenen Verfahrens der erzeugte Datensatz, der aus den Tiefendaten und den Bilddaten besteht, in das CNN eingegeben.It is thus an essential idea of the invention that the input data for the convolutional neural network have both image data and depth data for common viewing directions relative to the origin of the motor vehicle coordinate system, the directions being represented by coordinates of the common motor vehicle coordinate system serving as a common reference system. In other words, the input data for the convolutional neural network consists of image data and depth data for directions shown in the vehicle coordinate system, although such data was originally represented as data in the coordinate system of the camera and the area sensor, respectively. The transformation of this data into the common automotive coordinate system provides the ability to use data from various sensors / cameras in a common data set that is input to the convolutional neural network. Preferably, the camera continuously captures image frames, and the region sensor continuously captures depth information. Preferably, as a last step of the above-described method, the generated data set consisting of the depth data and the image data is input to the CNN.
Gemäß einer bevorzugten Ausführungsform der Erfindung weist das Verfahren ferner die folgenden Schritte auf:
- - Darstellen der Koordinaten im Kamerakoordinatensystem durch eine Richtungskosinusmatrix und
- - Darstellen der Koordinaten im Bereichssensorkoordinatensystem durch eine Richtungskosinusmatrix.
- Representing the coordinates in the camera coordinate system by a direction cosine matrix and
- Representing the coordinates in the area sensor coordinate system by a direction cosine matrix.
Wie dem Fachmann bekannt ist, sind die Richtungskosinuswerte eines Vektors die Kosinuswerte der Winkel zwischen dem Vektor und den drei Koordinatenachsen. Gleichbedeutend sind sie die Beiträge jeder Komponente der Basis zu einem Einheitsvektor in dieser Richtung. Richtungskosinus ist eine analoge Erweiterung des üblichen Begriffs der Steigung auf höhere Dimensionen. Daher bezieht sich der Richtungskosinus auf den Kosinus des Winkels zwischen zwei beliebigen Vektoren. Sie werden unter anderem dazu verwendet, Richtungskosinusmatrizen zu bilden, die einen Satz orthonormaler Basisvektorer bezüglich eines anderen Satzes darstellen, oder zum Darstellen eines bekannten Vektors in einer anderen Basis.As known to those skilled in the art, the direction cosine values of a vector are the cosine values of the angles between the vector and the three coordinate axes. Equally meaningful are the contributions of each component of the base to a unit vector in that direction. Directional cosine is an analogous extension of the usual concept of slope to higher dimensions. Therefore, the direction cosine refers to the cosine of the angle between any two vectors. They are used inter alia to form direction cosine matrices representing one set of orthonormal basis vectors with respect to another set, or to represent a known vector in another base.
Vorzugsweise weist das Verfahren weiterhin die folgenden Schritte auf:
- - Darstellen der Bilddaten durch einen Farbwert, vorzugsweise durch einen RGB-Wert, für jedes Koordinatentripel der Kosinusmatrix, und
- - Darstellen der Tiefendaten durch einen Abstandswert für jedes Koordinatentripel der Kosinusmatrix.
- Representing the image data by a color value, preferably by an RGB value, for each coordinate triplet of the cosine matrix, and
- Representing the depth data by a distance value for each coordinate triplet of the cosine matrix.
Auf diese Weise kann ein Datensatz, der einen Farbwert (als einen Teil des Bildrahmens) und einen jeweiligen Abstandswert (als einen Teil einer Tiefenkarte) für mehrere Richtungen relativ zum Ursprung des Kraftfahrzeugkoordinatensystems aufweist, in das CNN eingegeben und darin gemeinsam verarbeitet werden.In this way, a data set having a color value (as a part of the image frame) and a respective distance value (as a part of a depth map) for a plurality of directions relative to the origin of the motor vehicle coordinate system may be input to the CNN and processed together therein.
Allgemein können verschiedene Typen von Kameras verwendet werden. Gemäß einer bevorzugten Ausführungsform der Erfindung ist die Kamera jedoch eine Fischaugenkamera mit einem Sichtfeld, das mindestens 180°beträgt. F erner kann allgemein eine einzige Kamera für das erfindungsgemäße Verfahren ausreichend sein. Gemäß einer bevorzugten Ausführungsform der Erfindung werden jedoch mehrere Kameras zum Erzeugen der Eingabedaten für das konvolutionelle neuronale Netzwerk verwendet. Vorzugsweise haben diese Kameras unterschiedliche Sichtfelder. Noch bevorzugter decken diese Kameras die gesamte Umgebung des Kraftfahrzeugs ab.Generally, different types of cameras can be used. According to a preferred embodiment of the invention, however, the camera is a fisheye camera with a field of view that is at least 180 °. In general, a single camera may be sufficient for the method according to the invention. However, in accordance with a preferred embodiment of the invention, multiple cameras are used to generate the input data to the convolutional neural network. Preferably, these cameras have different fields of view. More preferably, these cameras cover the entire environment of the motor vehicle.
Ferner werden vorzugsweise mehrere Bereichssensoren zum Erzeugen der Eingabedaten für das konvolutionelle neuronale Netzwerk verwendet. Im Allgemeinen können diese Bereichssensoren vom gleichen Typ sein. Gemäß einer bevorzugten Ausführungsform der Erfindung weisen die Bereichssensoren jedoch mindestens zwei verschiedene Typen von Bereichssensoren auf, vorzugsweise mindestens einen LIDAR-Sensor und mindestens einen Ultraschallsensor. Vorzugsweise haben diese Bereichssensoren unterschiedliche Sichtfelder. Noch bevorzugter decken diese Bereichssensoren die gesamte Umgebung des Kraftfahrzeugs ab.Further, it is preferable to use a plurality of area sensors for generating the input data to the convolutional neural network. In general, these area sensors can be used by the same type. However, according to a preferred embodiment of the invention, the range sensors have at least two different types of range sensors, preferably at least one LIDAR sensor and at least one ultrasonic sensor. Preferably, these range sensors have different fields of view. More preferably, these range sensors cover the entire environment of the motor vehicle.
Die Erfindung betrifft auch die Verwendung eines vorstehend beschriebenen Verfahrens in einem Kraftfahrzeug, eine Sensoranordnung für ein Kraftfahrzeug, die dafür konfiguriert ist, ein derartiges Verfahren auszuführen, und ein nichtflüchtiges computerlesbares Medium, das darauf gespeicherte Befehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, eine Sensoranordnung eines Kraftfahrzeugs veranlassen, ein solches Verfahren auszuführen.The invention also relates to the use of a method described above in a motor vehicle, a sensor assembly for a motor vehicle configured to perform such a method, and a non-transitory computer-readable medium having instructions stored thereon when executed by a processor be cause a sensor assembly of a motor vehicle to carry out such a method.
Es zeigen:
-
1 schematisch ein Kraftfahrzeug mit einer Sensoranordnung zum Erfassen eines Objekts gemäß einer bevorzugten Ausführungsform der Erfindung; -
2 schematisch das Kamerakoordinatensystem und das Bereichssensorkoordinatensystem gemäß der bevorzugten Ausführungsform der Erfindung; und -
3 schematisch das Kraftfahrzeugkoordinatensystem gemäß der bevorzugten Ausführungsform der Erfindung.
-
1 schematically a motor vehicle with a sensor arrangement for detecting an object according to a preferred embodiment of the invention; -
2 schematically the camera coordinate system and the area sensor coordinate system according to the preferred embodiment of the invention; and -
3 schematically the motor vehicle coordinate system according to the preferred embodiment of the invention.
Wie in
Durch die Verwendung verschiedener Typen von Bereichssensoren
Es ist ein wichtiger Aspekt der vorliegenden bevorzugten Ausführungsform der Erfindung, die Bereichssensoren
Wie in
Im Detail wird dieses Verfahren gemäß der vorliegenden bevorzugten Ausführungsform der Erfindung wie folgt implementiert:In detail, this method according to the present preferred embodiment of the invention is implemented as follows:
Durch die Kamera
Wie vorstehend beschrieben wurde, wird ein Kraftfahrzeugkoordinatensystem bereitgestellt, das mit dem Kamerakoordinatensystem und den Koordinatensystemen der Bereichssensoren durch jeweilige Sätze von Translationen und Rotationen in Beziehung steht, die jeweils durch die Position der Kamera
Gemäß der hierin beschriebenen bevorzugten Ausführungsform der Erfindung werden die Koordinaten im Kamerakoordinatensystem und die Koordinaten im Bereichssensorkoordinatensystem durch eine jeweilige Richtungskosinusmatrix dargestellt. Ferner werden die Bilddaten durch einen Farbwert, d.h. durch einen RGB-Wert, für jedes Koordinatentripel der Kosinusmatrix dargestellt, und die Tiefendaten werden durch einen Abstandswert für jedes Koordinatentripel der Kosinusmatrix dargestellt.According to the preferred embodiment of the invention described herein, the coordinates in the camera coordinate system and the coordinates in the range sensor coordinate system are represented by a respective direction cosine matrix. Further, the image data is represented by a color value, i. by an RGB value, for each coordinate triplet of the cosine matrix, and the depth data is represented by a distance value for each coordinate triplet of the cosine matrix.
Auf diese Weise kann unter Verwendung von Bildinformation von der Kamera
BezugszeichenlisteLIST OF REFERENCE NUMBERS
- 11
- Kraftfahrzeugmotor vehicle
- 22
- Sensoranordnungsensor arrangement
- 33
- Kameracamera
- 44
- Auswerteeinheitevaluation
- 55
- Ultraschallsensorultrasonic sensor
- 66
- LIDAR-SensorLIDAR sensor
- 77
- Personperson
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- US 2017/0099200 A1 [0007]US 2017/0099200 A1 [0007]
Claims (10)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018100315.3A DE102018100315A1 (en) | 2018-01-09 | 2018-01-09 | Generating input data for a convolutional neural network |
PCT/EP2019/050343 WO2019137915A1 (en) | 2018-01-09 | 2019-01-08 | Generating input data for a convolutional neuronal network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018100315.3A DE102018100315A1 (en) | 2018-01-09 | 2018-01-09 | Generating input data for a convolutional neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102018100315A1 true DE102018100315A1 (en) | 2019-07-11 |
Family
ID=65013693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102018100315.3A Pending DE102018100315A1 (en) | 2018-01-09 | 2018-01-09 | Generating input data for a convolutional neural network |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102018100315A1 (en) |
WO (1) | WO2019137915A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117837156A (en) * | 2021-11-05 | 2024-04-05 | 深圳市大疆创新科技有限公司 | Control method and device for movable platform, movable platform and storage medium |
CN114882727B (en) * | 2022-03-15 | 2023-09-05 | 深圳市德驰微视技术有限公司 | Parking space detection method based on domain controller, electronic equipment and storage medium |
CN114419323B (en) * | 2022-03-31 | 2022-06-24 | 华东交通大学 | Cross-modal learning and domain self-adaptive RGBD image semantic segmentation method |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642431A (en) * | 1995-06-07 | 1997-06-24 | Massachusetts Institute Of Technology | Network-based system and method for detection of faces and the like |
DE69422446T2 (en) * | 1993-04-29 | 2000-06-15 | Canon Kk | Pattern recognition |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
US20170099200A1 (en) | 2015-10-06 | 2017-04-06 | Evolv Technologies, Inc. | Platform for Gathering Real-Time Analysis |
WO2017100903A1 (en) * | 2015-12-14 | 2017-06-22 | Motion Metrics International Corp. | Method and apparatus for identifying fragmented material portions within an image |
WO2017156243A1 (en) * | 2016-03-11 | 2017-09-14 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10168785B2 (en) * | 2015-03-03 | 2019-01-01 | Nvidia Corporation | Multi-sensor based user interface |
WO2018000039A1 (en) * | 2016-06-29 | 2018-01-04 | Seeing Machines Limited | Camera registration in a multi-camera system |
EP3438776B1 (en) * | 2017-08-04 | 2022-09-07 | Bayerische Motoren Werke Aktiengesellschaft | Method, apparatus and computer program for a vehicle |
EP3438777B1 (en) * | 2017-08-04 | 2022-05-11 | Bayerische Motoren Werke Aktiengesellschaft | Method, apparatus and computer program for a vehicle |
EP3438872A1 (en) * | 2017-08-04 | 2019-02-06 | Bayerische Motoren Werke Aktiengesellschaft | Method, apparatus and computer program for a vehicle |
-
2018
- 2018-01-09 DE DE102018100315.3A patent/DE102018100315A1/en active Pending
-
2019
- 2019-01-08 WO PCT/EP2019/050343 patent/WO2019137915A1/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69422446T2 (en) * | 1993-04-29 | 2000-06-15 | Canon Kk | Pattern recognition |
US5642431A (en) * | 1995-06-07 | 1997-06-24 | Massachusetts Institute Of Technology | Network-based system and method for detection of faces and the like |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
US20170099200A1 (en) | 2015-10-06 | 2017-04-06 | Evolv Technologies, Inc. | Platform for Gathering Real-Time Analysis |
WO2017100903A1 (en) * | 2015-12-14 | 2017-06-22 | Motion Metrics International Corp. | Method and apparatus for identifying fragmented material portions within an image |
WO2017156243A1 (en) * | 2016-03-11 | 2017-09-14 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
Non-Patent Citations (1)
Title |
---|
EITEL, Andreas [u.a.]: Multimodal deep learning for robust RGB-D object recognition. In: 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 28 Sept.-2 Oct. 2015, Hamburg, Germany, 2015, S. 681-687. - ISBN 978-1-4799-9994-1. DOI: 10.1109/IROS.2015.7353446. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7353446 [abgerufen am 2018-05-11] * |
Also Published As
Publication number | Publication date |
---|---|
WO2019137915A1 (en) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60130742T2 (en) | Pattern recognition with hierarchical networks | |
DE102017220307B4 (en) | Device and method for recognizing traffic signs | |
DE112011101939T5 (en) | Detecting objects in an image using self-similarities | |
DE102018100315A1 (en) | Generating input data for a convolutional neural network | |
DE112020000448T5 (en) | CAMERA SELF CALIBRATION NETWORK | |
WO2019001649A1 (en) | Knowledge transfer between different deep learning architectures | |
DE102017220752A1 (en) | Image processing apparatus, image processing method and image processing program | |
DE102016122649B3 (en) | Biometric method | |
WO2013037357A1 (en) | Automatic learning method for the automatic learning of forms of appearance of objects in images | |
DE102017124600A1 (en) | Semantic segmentation of an object in an image | |
DE102020209538A1 (en) | Device and method for determining a physical property of a physical object | |
DE202022101680U1 (en) | An automated hand gesture recognition system | |
DE112017007247B4 (en) | IMAGE PROCESSING DEVICE | |
DE102019129029A1 (en) | OBJECT DETECTION SYSTEM AND METHOD | |
EP1281157A1 (en) | Method and device for determining an object in an image | |
DE102021200643B3 (en) | Method for environment recognition for semi-autonomous or autonomous driving functions of a motor vehicle using a neural network | |
CN106650754B (en) | A kind of sparse Gaussian process homing method for vision mapping | |
DE102018201909A1 (en) | Method and device for object recognition | |
Hernández-Cámara et al. | Neural Networks with Divisive normalization for image segmentation with application in cityscapes dataset | |
EP1359539A2 (en) | Neurodynamic model of processing visual information | |
DE112021005555T5 (en) | MULTITASKING LEARNING VIA GRADUATION FOR EXTENSIVE HUMAN ANALYSIS | |
DE102020007646A1 (en) | Method for anonymizing street scenes for fleet learning | |
DE102019216511A1 (en) | Method for the detection and recognition of objects with a neural network | |
DE102017127170A1 (en) | Method for vehicle detection for a motor vehicle with a driving assistance system | |
DE102021131179A1 (en) | Shape prioritized image classification using deep convolution meshes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |