EP3847576A1 - Method and system for improved object marking in sensor data - Google Patents

Method and system for improved object marking in sensor data

Info

Publication number
EP3847576A1
EP3847576A1 EP19773742.2A EP19773742A EP3847576A1 EP 3847576 A1 EP3847576 A1 EP 3847576A1 EP 19773742 A EP19773742 A EP 19773742A EP 3847576 A1 EP3847576 A1 EP 3847576A1
Authority
EP
European Patent Office
Prior art keywords
scene
state
data
data record
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP19773742.2A
Other languages
German (de)
French (fr)
Inventor
Jens Eric Markus MEHNERT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of EP3847576A1 publication Critical patent/EP3847576A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Definitions

  • the present invention relates to a method and a system for
  • training data sets are often used, which can contain, for example, image and / or video data, for example to to learn automatic object recognition in such or similar data.
  • Object detection can e.g. be an autonomous driving or flight operation to recognize objects in the vehicle environment.
  • Object detection can e.g. be an autonomous driving or flight operation to recognize objects in the vehicle environment.
  • a large number of sensors In order to ensure reliable object detection, a large number of
  • Training records may be required.
  • Objects identified in a (training) data record are often classified, marked or labeled and form an object-label pair which is used for
  • machine learning can be processed by machine.
  • a street course can be provided as an object with a marking that corresponds to the
  • Object marking in image and video data sets can be cost-intensive, since this cannot be automated at all or only to a very limited extent. For this reason, such image and video annotations are predominantly carried out by human editors, for example the annotation of one captured image for semantic segmentation may take an average of more than an hour.
  • the object of the invention is therefore to provide a possibility for the simplified or more cost-effective provision of object markings or data containing annotations.
  • the process has the following steps:
  • a scene in a first state is detected by at least one sensor.
  • the scene can e.g. a vehicle environment, a street scene, a course of the road, a traffic situation or the like and include static and / or objects such as traffic areas, buildings, road users or the like.
  • the sensor may be a single optical sensor, such as a camera, a lidar sensor, or a fusion of such or similar sensors.
  • At least one object contained in the scene is assigned a first object marking, for example a first annotation, in a first data record containing the scene in the first state.
  • the first data record can contain an image or an image sequence which reproduces the scene in its first state, that is to say, for example, contains an image of a street course.
  • the first object marking can, for example, frame, fill, label or otherwise mark the object, but preferably optically.
  • the object and the object marking can form an object-label pair that can be processed, for example, in machine learning.
  • Object marking can be of a certain object class, such as street,
  • Tree building, traffic sign, pedestrian or the like.
  • this can e.g. mean that a road is driven at least twice and is detected by the sensor, in which case e.g. different times can distinguish the first state from the second state.
  • one or more objects of the scene are already marked in the first state, e.g. a course of the road.
  • Object markings can be created from scratch again. Rather, this effort only has to be carried out once, and the second data set can then be derived from it.
  • a location to be captured, for the image content of which an annotation already exists can be captured again in one or more other states, the effort of the annotation being operated only initially.
  • a further training provides that in order to recognize the scene in the second
  • Location information of the scene is assigned to the first data record.
  • the location information can e.g. by a suitable sensor, e.g. be provided by GPS or the like. This makes it easier to recognize the scene or to assign a data record to a specific scene.
  • sensor data can also be merged in order to provide the location information.
  • this can be done using a combination of GPS and camera intrinsics, e.g. in the form of
  • Own movement data of a vehicle can be taken into account.
  • the first data record is associated with viewing angle and / or position information of the scene. This can also be in addition to assigning a
  • Location information and e.g. on a self-movement data of a vehicle, by GPS data, a camera instrument or the like. This further improves recognition.
  • depth prediction e.g. monocular, by means of a stereo depth estimate, an estimate of the optical flow and / or based on LIDAR data, of the first object marking
  • a prediction of semantic segmentation can also be carried out in the unknown image, that is to say in the second data set.
  • a further development provides that the object marking or the label is transformed so that the object marking fits the new image of the second data record more precisely. This transform is also known as warping.
  • SLAM method Simultaneous Localization And Mapping
  • the effort for object marking or annotation can be particularly significantly reduced if the adoption of the first object marking is at least partially automated by an artificial intelligence module, or KL module for short.
  • This can have at least one processor and e.g. be set up by program instructions to emulate human-like decision-making structures in order to independently solve problems, such as here e.g. to solve the automatic object marking or annotation.
  • At least one artificial neural network which can be configured in a multi-layer and / or folding manner, determines image regions of the scene in the first and second data sets of the KL module that match.
  • the artificial neural network can provide a pixel-by-bit match mask as an output. This can be a good basis for manual, semi-automatic or fully automatic
  • the Kl module can be trained using the first and / or second data set, which is why the Kl module can be trained as
  • Training data record can be fed.
  • At least one distinguishing feature of the scene between the first state and the second state can be determined and that
  • Distinguishing feature can be assigned to the second object marking. This is at least possible if the distinguishing feature, for example the Difference class, already has a sufficiently good quality (eg statistical test with high confidence) and the comparison network indicates a match for the remaining image content of the scene. Then, for example, an option can be offered to automatically take over the object marking, ie the annotation. In other words, for example on the basis of the above-mentioned or another artificial neural network, a prediction can be carried out with existing training data in order to detect any changes in the scene. Since there is already a pair of image labels in the training data for the scene, a high quality of prediction can be achieved. A difference between annotation and prediction gives an indication of which objects must be annotated.
  • the distinguishing feature for example the Difference class
  • the comparison network indicates a match for the remaining image content of the scene.
  • an option can be offered to automatically take over the object marking, ie the annotation.
  • a prediction can be carried out with existing training data in order to detect any changes in the scene.
  • a further development provides that the scene in the second state can be captured by an image sequence and an unfavorable position, from which the scene is captured in the second state, can be compensated for on the basis of at least one single image upstream and / or downstream of the individual image to be marked .
  • the first state and the second state of the scene can differ in terms of weather conditions, light conditions or the like.
  • the scene can be captured again if the visibility conditions deteriorate due to fog compared to sunny weather, at night or the like.
  • the second state can, for example if the second state includes darkness, poor visibility or the like, cause one or more objects of the scene to be (no longer) visible in the second data set.
  • invisible areas can be marked or annotated accordingly or based on e.g. a signal-to-noise ratio are automatically excluded.
  • the invention also relates to a system for object marking in sensor data.
  • the system can in particular be operated in accordance with the method described above and accordingly further developed according to one or more of the embodiment variants described above.
  • the system has Via at least one, preferably optical, sensor for detecting a scene and via a data processing device, for example a computer with a processor, a memory and / or the like.
  • a data processing device for example a computer with a processor, a memory and / or the like.
  • Data processing device is set up to assign at least one object contained in the scene in a first data set containing the scene in a first state, and the first object marking contained in the first data set as second for the object recognized in a second state of the scene To at least partially take over object marking in a second data record.
  • the system can have a second sensor for determining the location and / or position during the detection of the scene, the location and / or position determination of the detected scene, i.e. in particular the first data record.
  • the second sensor can e.g. comprise one or more sensors, such as for GPS positioning, for determining self-movement or the like.
  • Figure 1 is a schematic of a system dealing with one of this invention
  • Figure 2 shows a practical application of the method using the example of a
  • FIG. 1 shows a diagram of a system 100 which is suitable for the partially automated and / or fully automated marking or annotation of an object or an object class recognized in an image or in an image sequence.
  • the system 100 comprises a data processing device 110, which can have a processor, a storage device, in particular for program code, etc.
  • a data processing device 110 which can have a processor, a storage device, in particular for program code, etc.
  • the processor 110 can have a processor, a storage device, in particular for program code, etc.
  • Data processing device 110 has at least one artificial intelligence module 120, or KL module for short, which, for example, uses a multilayered artificial neural network 130 for pattern recognition in an image or in an image
  • Image sequence is set up.
  • the system has at least one first sensor 140, which is designed as an optical sensor, for example as a camera, and at least one second sensor 150 for determining the location and / or position.
  • the sensors 140, 150 are exemplary on or in one
  • Motor vehicle 160 arranged and can also be borrowed from another vehicle system.
  • the first sensor 140 can thus be part of a driver assistance system that can also be set up for autonomous driving operation of the motor vehicle 160.
  • the second sensor 150 can be part of a
  • System 100 can be operated using the method described below.
  • the motor vehicle 160 is moved by a scene 170, which here is an example of a traffic situation with an object 180, which e.g. a static object in the form of a street, one
  • This scene 170 is recorded in a first state as an image or image sequence by means of the first sensor 140 and stored in a first data record 190.
  • the first state of the scene 170 corresponds, for example, to a daytime travel of the motor vehicle 160 through the scene, with the scene being assumed to be illuminated as bright as day.
  • Based on the location and / or location determination by the second sensor 150 are also one in the first data record 190
  • Location information the location where the scene was recorded, and viewing angle and / or location information.
  • the same or at least similar scene is again recorded in a second state, which differs from the first state, which is why the newly recorded scene in the second state is denoted by 170 in FIG. 1.
  • the object 180 is still part of the scene 170 '.
  • This scene 170 'in the second state is stored in a second data record 190'.
  • the first data record 180 is fed to the data processing device 110 and with its help, e.g. manually or partially automated, possibly also fully automated by the KL module 120, the object 190 with a first object marking 195, i.e. an annotation, marked.
  • the first object marking 195 i.e. an annotation, marked.
  • Object marker 195 can e.g. be a highlight of a street.
  • the second data record 190 ' is also fed to the data processing device 110 and processed therein.
  • the KL module 120 is also set up to recognize the object 180 in the second data record 190 'and to assign a second object marking 195' to it, which is the same as the first object marking 195 in the first data record 190 when the object 180 is unchanged. Recognizing the scene 170 'and / or the object 180, the KL module 120 accesses the information on the location and location of the recording of the scene 170, which are stored in the first data record 190. As a result of the processing by the KL module 120, the second data record 190 now also contains the similar or the same scene 170 and the second object marking 195.
  • FIG. 2 shows an exemplary scene 170 on the left-hand side, in which the object 180 is a course of a road, which already here is the first
  • Object marking 195 is provided. It is assumed that comparatively bad weather prevailed during the recording of scene 170 and therefore the view is slightly restricted. On the right-hand side of FIG. 2, scene 170 is again recorded when the weather is clearer.
  • the KL module 120 has recognized the scene 170 '(and has the object 180, that is to say the
  • the system 100 and the method described above can be modified in many ways. For example, it is possible that, based on the first data record 190, a depth prediction, e.g. monocular, by a stereo depth estimate, an estimate of the optical flow and / or on the basis of LIDAR data, of the image already having the first object marking. There can also be a prediction of semantic segmentation in the
  • the first object marking 195 is transformed so that the object marking fits the new image of the second data record 190 ′ more precisely. This transform is also known as warping. It is also possible that a SLAM (Simultaneous Localization And Mapping) method is used to obtain a better location and position determination. It is also conceivable for the artificial neural network 130 to be pixel by pixel
  • the SLAM method determines at least one distinguishing feature of the scene 170, 170 'between the first state and the second state and the second object marking 195' is assigned to the distinguishing feature, at least if the distinguishing feature, e.g. the difference class already has a sufficiently good quality (e.g. statistical test with high confidence) and the artificial neural network 130 indicates a match for the remaining image content of the scene 170, 170 ', e.g. an option is offered to automatically take over object marking 195.
  • the distinguishing feature e.g. the difference class already has a sufficiently good quality (e.g. statistical test with high confidence)
  • the artificial neural network 130 indicates a match for the remaining image content of the scene 170, 170 ', e.g. an option is offered to automatically take over object marking 195.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

The invention relates to a method and to a system (100) for improved object marking in sensor data, as a result of which an at least partially automated annotation of objects or object classes in a recorded data set is possible. The method for object marking in sensor data provides for a scene (170) to be detected in a first state by at least one sensor (140, 150). A first object marking (195) is then assigned to at least one object (180) contained in the scene in a first data set (190) containing the scene in the first state. Subsequently, the similar or at least substantially matching scene (170') is detected in a second state that is different from the first state by the at least one sensor (140, 150), and an at least partial acceptance of the first object marking (195) contained in the first data set (190) for the object (180) identified in the second state of the scene (170 ') as a second object marking (1951 ') in a second data set (190') takes place.

Description

Beschreibung  description
Titel: Title:
Verfahren und System zur verbesserten Objektmarkierung in Sensordaten  Method and system for improved object marking in sensor data
Die vorliegende Erfindung betrifft ein Verfahren sowie ein System zur The present invention relates to a method and a system for
Objektmarkierung in Sensordaten. Object marking in sensor data.
Stand der Technik State of the art
Im Bereich des maschinellen Lernens werden häufig Trainingsdatensätze verwendet, die beispielsweise Bild- und/oder Videodaten enthalten können, um z.B. eine automatische Objekterkennung in solchen oder ähnlichen Daten zu lernen. Ein exemplarischer Einsatz einer solchen automatischen In the area of machine learning, training data sets are often used, which can contain, for example, image and / or video data, for example to to learn automatic object recognition in such or similar data. An exemplary use of such an automatic
Objekterkennung kann z.B. ein autonomer Fahr- oder Flugbetrieb sein, um Objekte der Fahrzeugumgebung zu erkennen. Um hierbei eine zuverlässige Objekterkennung zu gewährleisten, kann eine hohe Anzahl von Object detection can e.g. be an autonomous driving or flight operation to recognize objects in the vehicle environment. In order to ensure reliable object detection, a large number of
Trainingsdatensätzen erforderlich sein. Training records may be required.
Häufig sind in einem (Trainings-) Datensatz identifizierte Objekte klassifiziert, markiert bzw. bezeichnet und bilden ein Objekt- Label- Paar, das zum Objects identified in a (training) data record are often classified, marked or labeled and form an object-label pair which is used for
maschinellen Lernen maschinell verarbeitet werden kann. Beispielsweise kann in einem Datensatz, in dem eine Szene einer Verkehrssituation erfasst ist, ein Straßenverlauf als Objekt mit einer Markierung versehen sein, die den machine learning can be processed by machine. For example, in a data record in which a scene of a traffic situation is recorded, a street course can be provided as an object with a marking that corresponds to the
Straßenverlauf als solchen bezeichnet bzw. klassifiziert. Insbesondere die Erzeugung von derartigen Bild- und Video-Annotationen, das heißt die Road course designated as such or classified. In particular, the generation of such image and video annotations, that is
Objektmarkierung in Bild- und Video- Datensätzen, kann kostenintensiv sein, da sich dies gar nicht oder nur sehr beschränkt automatisieren lässt. Deshalb werden solche Bild- und Video-Annotationen überwiegend von menschlichen Bearbeitern durchgeführt, wodurch beispielsweise das Annotieren eines aufgenommenen Bildes für die Semantische Segmentierung durchschnittlich mehr als eine Stunde dauern kann. Object marking in image and video data sets can be cost-intensive, since this cannot be automated at all or only to a very limited extent. For this reason, such image and video annotations are predominantly carried out by human editors, for example the annotation of one captured image for semantic segmentation may take an average of more than an hour.
Offenbarung der Erfindung Disclosure of the invention
Die Aufgabe der Erfindung ist es daher, eine Möglichkeit zur vereinfachten bzw. kostengünstigeren Bereitstellung von Objektmarkierungen bzw. Annotationen enthaltenden Daten zur Verfügung zu stellen. The object of the invention is therefore to provide a possibility for the simplified or more cost-effective provision of object markings or data containing annotations.
Diese Aufgabe wird durch ein Verfahren sowie ein System zur Objektmarkierung in Sensordaten gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen, der Beschreibung sowie den begleitenden Figuren. This object is achieved by a method and a system for object marking in sensor data in accordance with the independent claims. Advantageous further developments of the invention result from the dependent claims, the description and the accompanying figures.
Ein derartiges Verfahren zur Objektmarkierung in Sensordaten kann Such a method for object marking in sensor data can
insbesondere dazu verwendet werden, einen oder mehrere Trainingsdatensätze für maschinelles Lernen zu erzeugen. Das Verfahren weist die folgenden Schritte auf: used in particular to generate one or more training data sets for machine learning. The process has the following steps:
- Zunächst wird eine Szene in einem ersten Zustand durch wenigstens einen Sensor erfasst. Die Szene kann z.B. eine Fahrzeugumgebung, ein Straßenbild, einen Straßenverlauf, eine Verkehrssituation oder ähnliches sein und statische und/oder Objekte, wie Verkehrsflächen, Gebäude, Verkehrsteilnehmer oder ähnliches, umfassen. Der Sensor kann ein einzelner optischer Sensor, wie etwa eine Kamera, ein LIDAR-Sensor sein oder eine Fusion von derartigen oder ähnlichen Sensoren umfassen. - First, a scene in a first state is detected by at least one sensor. The scene can e.g. a vehicle environment, a street scene, a course of the road, a traffic situation or the like and include static and / or objects such as traffic areas, buildings, road users or the like. The sensor may be a single optical sensor, such as a camera, a lidar sensor, or a fusion of such or similar sensors.
- Wenigstens einem in der Szene enthaltenen Objekt wird in einem die Szene im ersten Zustand enthaltenden ersten Datensatz eine erste Objektmarkierung, z.B. eine erste Annotation, zugeordnet. Der erste Datensatz kann ein Bild oder eine Bildsequenz enthalten, die die Szene in ihrem ersten Zustand wiedergibt, also z.B. ein Bild eines Straßenverlaufs enthält. Die erste Objektmarkierung kann beispielsweise das Objekt umrahmen, ausfüllen, beschriften oder auf sonstige Weise kennzeichnen, vorzugsweise jedoch optisch. Lediglich exemplarisch, kann also der Straßenverlauf maschinenlesbar nachgezeichnet sein. In anderen Worten können das Objekt und die Objektmarkierung ein Objekt- Label- Paar bilden, das z.B. beim maschinellen Lernen verarbeitbar ist. Die - At least one object contained in the scene is assigned a first object marking, for example a first annotation, in a first data record containing the scene in the first state. The first data record can contain an image or an image sequence which reproduces the scene in its first state, that is to say, for example, contains an image of a street course. The first object marking can, for example, frame, fill, label or otherwise mark the object, but preferably optically. For example only, the Be machine-readable to trace the course of the road. In other words, the object and the object marking can form an object-label pair that can be processed, for example, in machine learning. The
Objektmarkierung kann einer bestimmten Objektklasse, wie Straße, Object marking can be of a certain object class, such as street,
Baum, Gebäude, Verkehrszeichen, Fußgänger oder ähnlichem, zugeordnet sein. Tree, building, traffic sign, pedestrian or the like.
- Zudem wird die ähnliche oder zumindest im Wesentlichen - It will also be similar or at least essentially
übereinstimmende Szene in einem zu dem ersten Zustand  matching scene in a to the first state
unterschiedlichen, zweiten Zustand durch den wenigstens einen Sensor erfasst. Das kann im einfachsten Fall z.B. bedeuten, dass eine Straße wenigstens zweimal abgefahren und dabei durch den Sensor erfasst wird, wobei in diesem Fall z.B. unterschiedliche Uhrzeiten den ersten Zustand von dem zweiten Zustand unterscheiden können. Wie oben beschrieben, sind ein oder mehrere Objekte der Szene in dem ersten Zustand bereits markiert, also z.B. ein Straßenverlauf.  different, second state detected by the at least one sensor. In the simplest case, this can e.g. mean that a road is driven at least twice and is detected by the sensor, in which case e.g. different times can distinguish the first state from the second state. As described above, one or more objects of the scene are already marked in the first state, e.g. a course of the road.
- Dann erfolgt ein zumindest teilweises Übernehmen der in dem ersten Datensatz enthaltenen ersten Objektmarkierung für das im zweiten Zustand der Szene (wiederjerkannte Objekt als zweite Objektmarkierung in einem zweiten Datensatz. Anschaulich betrachtet, kann bei dem oben erwähnten Beispiel eines Straßenverlaufs dieser bereits nachgezeichnet sein. Selbstverständlich kann dieses Verfahren mit prinzipiell beliebig vielen Datensätzen und/oder Zuständen wiederholt werden. - Then there is at least partial acceptance of the first object marking contained in the first data record for the object recognized in the second state of the scene (recognized object as a second object marking in a second data record. Clearly viewed, this can already be traced in the above-mentioned example of a street course. Of course this method can in principle be repeated with any number of data records and / or states.
Mit diesem Verfahren ist es möglich, die Bereitstellungskosten für Daten zu reduzieren, die Objektmarkierungen bzw. Annotationen enthalten. So müssen für den zweiten (dritten, vierten usw.) Datensatz zumindest nicht sämtliche With this method it is possible to reduce the provision costs for data which contain object markings or annotations. For the second (third, fourth, etc.) data record, at least not all of them have to
Objektmarkierungen wieder komplett neu erstellt werden. Vielmehr muss dieser Aufwand nur einmal betrieben werden, wobei der zweite Datensatz dann daraus abgeleitet werden kann. Anschaulich betrachtet, kann ein zu erfassender Ort, für dessen Bildinhalt bereits eine Annotation existiert, in einem oder mehreren anderen Zuständen erneut erfasst werden, wobei der Aufwand der Annotation nur initial betrieben wird. Wenn zum Trainieren einer Funktion durch Object markings can be created from scratch again. Rather, this effort only has to be carried out once, and the second data set can then be derived from it. Considered clearly, a location to be captured, for the image content of which an annotation already exists, can be captured again in one or more other states, the effort of the annotation being operated only initially. When to train a function through
maschinelles Lernen der Ort zur Tagzeit und zur Nachtzeit erfasst vorliegen soll, wäre es in diesem Fall ausreichend, z.B. nur in der Tag-Szene eine Objektmarkierung zu setzen und diese für die Nacht-Szene zu übernehmen. Somit können auf Basis eines vorhandenen Objekt- Label- Paares eine Vielzahl von Trainingsdaten erzeugt werden, ohne dass jeweils Kosten für die Annotation entstehen. machine learning the location should be recorded at daytime and at nighttime, it would be sufficient in this case, e.g. only in the daytime scene Set object marking and apply it to the night scene. A large number of training data can thus be generated on the basis of an existing pair of object labels, without incurring any costs for the annotation.
Eine Weiterbildung sieht vor, dass zum Erkennen der Szene im zweiten A further training provides that in order to recognize the scene in the second
Datensatz dem ersten Datensatz eine Orts Information der Szene zugeordnet wird. Die Orts Information kann z.B. durch einen geeigneten Sensor, z.B. durch GPS oder ähnliches bereitgestellt werden. Dadurch kann die Szene leichter wiedererkannt bzw. ein Datensatz einer bestimmten Szene leichter zugeordnet werden. Location information of the scene is assigned to the first data record. The location information can e.g. by a suitable sensor, e.g. be provided by GPS or the like. This makes it easier to recognize the scene or to assign a data record to a specific scene.
Gemäß einer anderen Weiterbildung können auch Sensordaten fusioniert werden, um die Ortsinformation bereitzustellen. Z.B. kann dies auf einer Kombination von GPS und einer Kamera-Intrinsik, z.B. in Form von According to another development, sensor data can also be merged in order to provide the location information. E.g. this can be done using a combination of GPS and camera intrinsics, e.g. in the form of
Kalibrierungsdaten der Kamera oder ähnlichem, basieren. Auch Calibration data of the camera or the like, based. Also
Eigenbewegungs- Daten eines Fahrzeugs können berücksichtigt werden. Own movement data of a vehicle can be taken into account.
Dadurch wird die Wiederkennung noch weiter verbessert. This further improves recognition.
Eine andere Weiterbildung sieht vor, dass zum Erkennen der Szene im zweiten Datensatz dem ersten Datensatz eine Blickwinkel- und/oder Lageinformation der Szene zugeordnet wird. Dies kann auch zusätzlich zur Zuordnung einer Another development provides that, in order to recognize the scene in the second data record, the first data record is associated with viewing angle and / or position information of the scene. This can also be in addition to assigning a
Ortsinformation erfolgen und z.B. auf einer Eigenbewegungs- Daten eines Fahrzeugs, durch GPS-Daten, einer Kamera-Instrinsik oder ähnlichem erfolgen. Dadurch wird die Wiederkennung noch weiter verbessert. Location information and e.g. on a self-movement data of a vehicle, by GPS data, a camera instrument or the like. This further improves recognition.
Gemäß einer Weiterbildung können eine Tiefenprädiktion, z.B. monokular, durch eine Stereo-Tiefenschätzung, eine Schätzung des optischen Flusses und/oder auf Basis von LIDAR-Daten, des bereits die erste Objektmarkierung According to a further development, depth prediction, e.g. monocular, by means of a stereo depth estimate, an estimate of the optical flow and / or based on LIDAR data, of the first object marking
aufweisenden Bildes, also auf Basis des ersten Datensatzes, durchgeführt werden. Es kann auch eine Prädiktion einer Semantischen Segmentierung in dem unbekannten Bild, also dem zweiten Datensatz, durchgeführt werden. Eine Weiterbildung sieht vor, dass die Objektmarkierung bzw. das Label transformiert wird, damit die Objektmarkierung präziser zu dem neuen Bild des zweiten Datensatzes passt. Dieses Transformieren ist auch als warping bekannt. having image, that is, based on the first data set. A prediction of semantic segmentation can also be carried out in the unknown image, that is to say in the second data set. A further development provides that the object marking or the label is transformed so that the object marking fits the new image of the second data record more precisely. This transform is also known as warping.
Gemäß einer anderen Weiterbildung kann ein SLAM-Verfahren (Simultaneous Localization And Mapping) verwendet werden, um eine bessere Orts und Lagebestimmung zu erhalten. According to another development, a SLAM method (Simultaneous Localization And Mapping) can be used in order to obtain a better location and position determination.
Der Aufwand für die Objektmarkierung bzw. Annotation lässt sich besonders signifikant reduzieren, wenn das Übernehmen der ersten Objektmarkierung zumindest teilweise automatisiert durch ein Künstliches-Intelligenz-Modul, kurz Kl-Modul, erfolgt. Dieses kann wenigstens einen Prozessor aufweisen und z.B. durch Programmanweisungen dazu eingerichtet sein, menschenähnliche Entscheidungsstrukturen nachzubilden, um eigenständig Probleme, wie hier z.B. das automatische Objektmarkieren bzw. die Annotation, zu lösen. The effort for object marking or annotation can be particularly significantly reduced if the adoption of the first object marking is at least partially automated by an artificial intelligence module, or KL module for short. This can have at least one processor and e.g. be set up by program instructions to emulate human-like decision-making structures in order to independently solve problems, such as here e.g. to solve the automatic object marking or annotation.
Für eine besonders hohe Leistung des Verfahrens hat es sich als vorteilhaft erwiesen, wenn wenigstens ein künstliches neuronales Netz, das mehrschichtig und/oder faltend ausgestaltet sein kann, des Kl-Moduls übereinstimmende Bildbereiche der Szene im ersten und zweiten Datensatz bestimmt. For a particularly high performance of the method, it has proven to be advantageous if at least one artificial neural network, which can be configured in a multi-layer and / or folding manner, determines image regions of the scene in the first and second data sets of the KL module that match.
Eine Weiterbildung sieht vor, dass das künstliche neuronale Netz eine pixelweise Übereinstimmungsmaske als Ausgabe bereitstellen kann. Dies kann eine gute Grundlage für eine manuelle, teilautomatische oder vollautomatische A further development provides that the artificial neural network can provide a pixel-by-bit match mask as an output. This can be a good basis for manual, semi-automatic or fully automatic
Weiterverarbeitung bilden. Form further processing.
Um noch mehr Kosten zu sparen, kann das Kl-Modul durch den ersten und/oder zweiten Datensatz trainiert werden, wozu diese dem Kl-Modul als In order to save even more costs, the Kl module can be trained using the first and / or second data set, which is why the Kl module can be trained as
Trainingsdatensatz zugeführt werden können. Training data record can be fed.
Gemäß einer anderen Weiterbildung kann, vorzugsweise durch ein SLAM- Verfahren, wenigstens ein Unterscheidungsmerkmal der Szene zwischen dem ersten Zustand und dem zweiten Zustand bestimmt werden und dem According to another development, preferably by means of a SLAM method, at least one distinguishing feature of the scene between the first state and the second state can be determined and that
Unterscheidungsmerkmal die zweite Objektmarkierung zugeordnet werden. Dies ist zumindest möglich, wenn das Unterscheidungsmerkmal, z.B. die Differenzklasse, bereits eine ausreichend gute Qualität (z.B. statistischer Test mit hoher Konfidenz) hat und das Vergleichsnetzwerk für den übrigen Bildinhalt der Szene eine Übereinstimmung anzeigt. Dann kann z.B. eine Option angeboten werden, die Objektmarkierung, also die Annotation, automatisch zu übernehmen. In anderen Worten, kann, z.B. auf Basis des oben erwähnten oder eines anderen künstlichen neuronalen Netzes, eine Prädiktion mit vorhandenen Trainingsdaten durchgeführt werden um evtl. Änderungen in der Szene zu detektieren. Da für die Szene schon ein Bild-Label-Paar in den Trainingsdaten existiert, kann eine hohe Prädiktionsqualität erreicht werden. Eine Differenz zwischen Annotation und Prädiktion gibt einen Hinweis darauf, welche Objekte nachannotiert werden muss. Distinguishing feature can be assigned to the second object marking. This is at least possible if the distinguishing feature, for example the Difference class, already has a sufficiently good quality (eg statistical test with high confidence) and the comparison network indicates a match for the remaining image content of the scene. Then, for example, an option can be offered to automatically take over the object marking, ie the annotation. In other words, for example on the basis of the above-mentioned or another artificial neural network, a prediction can be carried out with existing training data in order to detect any changes in the scene. Since there is already a pair of image labels in the training data for the scene, a high quality of prediction can be achieved. A difference between annotation and prediction gives an indication of which objects must be annotated.
Eine Weiterbildung sieht vor, dass die Szene im zweiten Zustand durch eine Bildsequenz erfasst werden kann und anhand von wenigstens einem dem zu markierenden Einzelbild vor- und/oder nachgelagerten Einzelbild eine ungünstige Position, aus der die Szene im zweiten Zustand erfasst ist, kompensiert werden kann. A further development provides that the scene in the second state can be captured by an image sequence and an unfavorable position, from which the scene is captured in the second state, can be compensated for on the basis of at least one single image upstream and / or downstream of the individual image to be marked .
Beispielsweise können sich der erste Zustand und der zweite Zustand der Szene durch Wetterverhältnisse, Lichtverhältnisse oder ähnliches unterscheiden. For example, the first state and the second state of the scene can differ in terms of weather conditions, light conditions or the like.
Beispielsweise kann die Szene bei durch Nebel gegenüber sonnigem Wetter verschlechterten Sichtverhältnissen, bei Nacht oder ähnlichem nochmals erfasst werden. For example, the scene can be captured again if the visibility conditions deteriorate due to fog compared to sunny weather, at night or the like.
Gemäß einer anderen Weiterbildung kann der zweite Zustand bewirken, beispielsweise wenn der zweite Zustand Dunkelheit, schlechte Sichtverhältnisse oder ähnliches umfasst, dass ein oder mehrere Objekte der Szene im zweiten Datensatz nicht (mehr) sichtbar sind. Solche nicht sichtbaren Bereiche können in diesem Fall entsprechend markiert bzw. annotiert werden oder aufgrund von z.B. einem Signal- Rausch- Verhältnis automatisch ausgeschlossen werden. According to another development, the second state can, for example if the second state includes darkness, poor visibility or the like, cause one or more objects of the scene to be (no longer) visible in the second data set. In this case, such invisible areas can be marked or annotated accordingly or based on e.g. a signal-to-noise ratio are automatically excluded.
Die Erfindung betrifft auch ein System zur Objektmarkierung in Sensordaten. Das System kann insbesondere gemäß dem vorstehend beschriebenen Verfahren betrieben und dementsprechend nach einer oder mehreren der vorstehend beschriebenen Ausführungsvarianten weitergebildet werden. Das System verfügt über wenigstens einen, vorzugsweise optischen, Sensor zum Erfassen einer Szene und über eine Datenverarbeitungseinrichtung, z.B. einem Computer mit einem Prozessor, einem Speicher und/oder ähnlichem. Die The invention also relates to a system for object marking in sensor data. The system can in particular be operated in accordance with the method described above and accordingly further developed according to one or more of the embodiment variants described above. The system has Via at least one, preferably optical, sensor for detecting a scene and via a data processing device, for example a computer with a processor, a memory and / or the like. The
Datenverarbeitungseinrichtung ist dazu eingerichtet ist, wenigstens einem in der Szene enthaltenen Objekt in einem die Szene in einem ersten Zustand enthaltenden ersten Datensatz eine erste Objektmarkierung zuzuordnen, und die in dem ersten Datensatz enthaltene erste Objektmarkierung für das in einem zweiten Zustand der Szene erkannte Objekt als zweite Objektmarkierung in einem zweiten Datensatz zumindest teilweise zu übernehmen. Data processing device is set up to assign at least one object contained in the scene in a first data set containing the scene in a first state, and the first object marking contained in the first data set as second for the object recognized in a second state of the scene To at least partially take over object marking in a second data record.
Gemäß einer Weiterbildung kann das System einen zweiten Sensor zur Orts und/oder Lagebestimmung während des Erfassens der Szene aufweisen, wobei die Orts- und/oder Lagebestimmung der erfassten Szene, d.h. insbesondere dem ersten Datensatz, zuordbar ist. Der zweite Sensor kann z.B. einen oder mehrere Sensoren umfassen, wie beispielsweise zur GPS-Ortung, zur Eigenbewegungs- Bestimmung oder ähnliches. According to a development, the system can have a second sensor for determining the location and / or position during the detection of the scene, the location and / or position determination of the detected scene, i.e. in particular the first data record. The second sensor can e.g. comprise one or more sensors, such as for GPS positioning, for determining self-movement or the like.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt. Further measures improving the invention are described in more detail below together with the description of the preferred exemplary embodiments of the invention with reference to figures.
Kurze Beschreibung der Figuren Brief description of the figures
Im Folgenden werden vorteilhafte Ausführungsbeispiele der Erfindung mit Bezug auf die begleitenden Figuren detailliert beschrieben. Es zeigen: In the following, advantageous exemplary embodiments of the invention are described in detail with reference to the accompanying figures. Show it:
Figur 1 ein Schema eines Systems, das sich mit einem dieser Erfindung Figure 1 is a schematic of a system dealing with one of this invention
zugrundeliegenden Verfahren betreiben lässt, und  operates the underlying process, and
Figur 2 eine praktische Anwendung des Verfahrens am Beispiel eines Figure 2 shows a practical application of the method using the example of a
Straßenverlaufs.  Road course.
Die Figuren sind lediglich schematisch und nicht maßstabsgetreu. In den Figuren sind gleiche, gleichwirkende oder ähnliche Elemente durchgängig mit gleichen Bezugszeichen versehen. Ausführungsformen der Erfindung The figures are only schematic and are not to scale. In the figures, the same, equivalent or similar elements are provided with the same reference numerals throughout. Embodiments of the invention
Figur 1 zeigt ein Schema eines Systems 100, das sich zum teilautomatisierten und/oder vollautomatisierten Markieren bzw. Annotieren eines in einem Bild oder in einer Bildsequenz erkannten Objekts bzw. einer Objektklasse eignet. FIG. 1 shows a diagram of a system 100 which is suitable for the partially automated and / or fully automated marking or annotation of an object or an object class recognized in an image or in an image sequence.
Das System 100 umfasst eine Datenverarbeitungseinrichtung 110, die einen Prozessor, eine Speichereinrichtung, insbesondere für Programmcode usw., aufweisen kann. In diesem Ausführungsbeispiel weist die The system 100 comprises a data processing device 110, which can have a processor, a storage device, in particular for program code, etc. In this embodiment, the
Datenverarbeitungseinrichtung 110 wenigstens ein Künstliches-Intelligenz-Modul 120, kurz Kl-Modul, auf, das exemplarisch über ein mehrschichtiges künstliches neuronales Netz 130 zur Mustererkennung in einem Bild oder in einer Data processing device 110 has at least one artificial intelligence module 120, or KL module for short, which, for example, uses a multilayered artificial neural network 130 for pattern recognition in an image or in an image
Bildsequenz eingerichtet ist. Zudem weist das System wenigstens einen ersten Sensor 140, der als optischer Sensor, beispielsweise als Kamera, ausgeführt ist, und wenigstens einen zweiten Sensor 150 zur Orts- und/oder Lagebestimmung auf. Die Sensoren 140, 150 sind hier exemplarisch an bzw. in einem Image sequence is set up. In addition, the system has at least one first sensor 140, which is designed as an optical sensor, for example as a camera, and at least one second sensor 150 for determining the location and / or position. The sensors 140, 150 are exemplary on or in one
Kraftfahrzeug 160 angeordnet und können auch einem anderen Fahrzeugsystem entliehen sein. So kann der erste Sensor 140 Teil eines Fahrassistenzsystems sein, das auch für einen autonomen Fährbetrieb des Kraftfahrzeugs 160 eingerichtet sein kann. Der zweite Sensor 150 kann Teil eines Motor vehicle 160 arranged and can also be borrowed from another vehicle system. The first sensor 140 can thus be part of a driver assistance system that can also be set up for autonomous driving operation of the motor vehicle 160. The second sensor 150 can be part of a
Navigationssystems, eines Odometrie-Systems oder ähnlichem sein. Navigation system, an odometry system or the like.
Das System 100 kann mit dem nachfolgend beschriebenen Verfahren betrieben werden. System 100 can be operated using the method described below.
Zunächst wird das Kraftfahrzeug 160 durch eine Szene 170 bewegt, bei der es sich hier exemplarisch um eine Verkehrssituation mit einem Objekt 180 handelt, das z.B. ein statisches Objekt in Form eines Straßenverlaufs, eines First, the motor vehicle 160 is moved by a scene 170, which here is an example of a traffic situation with an object 180, which e.g. a static object in the form of a street, one
Verkehrszeichens usw. sein kann. Diese Szene 170 wird mittels des ersten Sensors 140 in einem ersten Zustand als Bild oder Bildsequenz aufgenommen und in einem ersten Datensatz 190 gespeichert. Der erste Zustand der Szene 170 entspricht beispielsweise einer Tag-Fahrt des Kraftfahrzeugs 160 durch die Szene, wobei hier eine entsprechend taghelle Beleuchtung der Szene angenommen wird. Anhand der Orts- und/oder Lagebestimmung durch den zweiten Sensor 150 werden in dem ersten Datensatz 190 auch eine Traffic sign, etc. This scene 170 is recorded in a first state as an image or image sequence by means of the first sensor 140 and stored in a first data record 190. The first state of the scene 170 corresponds, for example, to a daytime travel of the motor vehicle 160 through the scene, with the scene being assumed to be illuminated as bright as day. Based on the location and / or location determination by the second sensor 150 are also one in the first data record 190
Ortsinformation, der Ort, an dem die Szene aufgenommen wurde, und eine Blickwinkel- und/oder Lageinformation festgehalten. Location information, the location where the scene was recorded, and viewing angle and / or location information.
Die gleiche oder zumindest ähnliche Szene wird erneut in einem zweiten Zustand aufgenommen, der sich von dem ersten Zustand unterscheidet, weshalb die erneut aufgenommene Szene im zweiten Zustand in Figur 1 mit 170‘ bezeichnet ist. Dies entspricht hier beispielhaft einer Nacht- Fahrt des Kraftfahrzeugs 160 durch die Szene 170‘, wobei hier eine entsprechend nachtdunkle Umgebung angenommen wird. Ferner wird angenommen, dass das Objekt 180 noch immer Teil der Szene 170‘ ist. Diese Szene 170‘ in dem zweiten Zustand wird in einem zweiten Datensatz 190‘ gespeichert. The same or at least similar scene is again recorded in a second state, which differs from the first state, which is why the newly recorded scene in the second state is denoted by 170 in FIG. 1. This corresponds here, for example, to a night drive of the motor vehicle 160 through the scene 170 ', with a correspondingly dark environment being assumed here. Furthermore, it is assumed that the object 180 is still part of the scene 170 '. This scene 170 'in the second state is stored in a second data record 190'.
Des Weiteren wird der erste Datensatz 180 der Datenverarbeitungseinrichtung 110 zugeführt und mit dessen Hilfe, z.B. manuell oder teilautomatisiert, ggf. auch vollautomatisiert durch das Kl-Modul 120, das Objekt 190 mit einer ersten Objektmarkierung 195, d.h. einer Annotation, markiert. Die erste Furthermore, the first data record 180 is fed to the data processing device 110 and with its help, e.g. manually or partially automated, possibly also fully automated by the KL module 120, the object 190 with a first object marking 195, i.e. an annotation, marked. The first
Objektmarkierung 195 kann z.B. eine Hervorhebung eines Straßenverlaufs sein. Object marker 195 can e.g. be a highlight of a street.
Auch der zweite Datensatz 190‘ wird der Datenverarbeitungseinrichtung 110 zugeführt und darin verarbeitet. Das Kl-Modul 120 ist ferner dazu eingerichtet, das Objekt 180 in dem zweiten Datensatz 190‘ zu erkennen und diesem eine zweite Objektmarkierung 195‘ zuzuordnen, die bei unverändertem Objekt 180 gleich ist zu der ersten Objektmarkierung 195 im ersten Datensatz 190. Für die (Wieder) Erkennung der Szene 170‘ und/oder des Objekts 180 greift das Kl- Modul 120 auf die Informationen zu Ort und Lage der Aufnahme der Szene 170 zurück, die in dem ersten Datensatz 190 gespeichert sind. Als Ergebnis der Verarbeitung durch das Kl-Modul 120 enthält nun auch der zweite Datensatz 190‘ die ähnliche oder gleiche Szene 170‘ und die zweite Objektmarkierung 195‘. The second data record 190 'is also fed to the data processing device 110 and processed therein. The KL module 120 is also set up to recognize the object 180 in the second data record 190 'and to assign a second object marking 195' to it, which is the same as the first object marking 195 in the first data record 190 when the object 180 is unchanged. Recognizing the scene 170 'and / or the object 180, the KL module 120 accesses the information on the location and location of the recording of the scene 170, which are stored in the first data record 190. As a result of the processing by the KL module 120, the second data record 190 now also contains the similar or the same scene 170 and the second object marking 195.
Wie in Figur 1 angedeutet, dienen der erste und der zweite Datensatz 190, 190‘ als Trainingsdatensatz 200 für das Kl-Modul 120 selbst oder für ein weiteres Kl- Modul 210, das beispielsweise auch Teil eines autonom fahrenden Fahrzeugs sein kann. Figur 2 zeigt auf der linken Seite eine exemplarische Szene 170, bei dem das Objekt 180 ein Straßenverlauf ist, der hier bereits mit der ersten As indicated in FIG. 1, the first and the second data record 190, 190 'serve as training data record 200 for the Kl module 120 itself or for a further Kl module 210, which can also be part of an autonomously driving vehicle, for example. FIG. 2 shows an exemplary scene 170 on the left-hand side, in which the object 180 is a course of a road, which already here is the first
Objektmarkierung 195 versehen ist. Es wird angenommen, dass während der Aufnahme der Szene 170 vergleichsweise schlechtes Wetter herrschte und deshalb die Sicht leicht eingeschränkt ist. Auf der rechten Seite der Figur 2 ist die Szene 170‘ nochmals bei klarerem Wetter aufgenommen. Das Kl-Modul 120 hat die Szene 170‘ (wiederjerkannt und hat dem Objekt 180, also dem Object marking 195 is provided. It is assumed that comparatively bad weather prevailed during the recording of scene 170 and therefore the view is slightly restricted. On the right-hand side of FIG. 2, scene 170 is again recorded when the weather is clearer. The KL module 120 has recognized the scene 170 '(and has the object 180, that is to say the
Straßenverlauf, die zweite Objektmarkierung 195‘ automatisch zugeordnet. Road course, the second object marking 195 'automatically assigned.
Ausgehend von dem dargestellten Ausführungsbeispiel können das System 100 und das vorstehend beschriebene Verfahren in vielerlei Hinsicht abgewandelt werden. So ist es beispielsweise möglich, dass auf Basis des ersten Datensatzes 190 eine Tiefenprädiktion, z.B. monokular, durch eine Stereo-Tiefenschätzung, eine Schätzung des optischen Flusses und/oder auf Basis von LIDAR-Daten, des bereits die erste Objektmarkierung aufweisenden Bildes, durchgeführt wird. Es kann auch eine Prädiktion einer Semantischen Segmentierung in dem Based on the illustrated embodiment, the system 100 and the method described above can be modified in many ways. For example, it is possible that, based on the first data record 190, a depth prediction, e.g. monocular, by a stereo depth estimate, an estimate of the optical flow and / or on the basis of LIDAR data, of the image already having the first object marking. There can also be a prediction of semantic segmentation in the
unbekannten Bild, also dem zweiten Datensatz, durchgeführt werden. Des Weiteren ist es denkbar, dass die erste Objektmarkierung 195 transformiert wird, damit die Objektmarkierung präziser zu dem neuen Bild des zweiten Datensatzes 190‘ passt. Dieses Transformieren ist auch als warping bekannt. Zudem ist es möglich, dass ein SLAM-Verfahren (Simultaneous Localization And Mapping) verwendet wird, um eine bessere Orts und Lagebestimmung zu erhalten. Es ist auch denkbar, dass das künstliche neuronale Netz 130 eine pixelweise unknown image, i.e. the second data record. Furthermore, it is conceivable that the first object marking 195 is transformed so that the object marking fits the new image of the second data record 190 ′ more precisely. This transform is also known as warping. It is also possible that a SLAM (Simultaneous Localization And Mapping) method is used to obtain a better location and position determination. It is also conceivable for the artificial neural network 130 to be pixel by pixel
Übereinstimmungsmaske als Ausgabe bereitstellen kann. Dies kann eine gute Grundlage für eine manuelle, teilautomatische oder vollautomatische Can provide match mask as output. This can be a good basis for manual, semi-automatic or fully automatic
Weiterverarbeitung bilden. Zudem ist es möglich, dass insbesondere durch das SLAM-Verfahren wenigstens ein Unterscheidungsmerkmal der Szene 170, 170‘ zwischen dem ersten Zustand und dem zweiten Zustand bestimmt wird und dem Unterscheidungsmerkmal die zweite Objektmarkierung 195‘ zugeordnet wird, zumindest wenn das Unterscheidungsmerkmal, z.B. die Differenzklasse, bereits eine ausreichend gute Qualität (z.B. statistischer Test mit hoher Konfidenz) hat und das künstliche neuronale Netz 130 für den übrigen Bildinhalt der Szene 170, 170‘ eine Übereinstimmung anzeigt, z.B. eine Option angeboten wird, die Objektmarkierung 195 automatisch zu übernehmen. Form further processing. In addition, it is possible that, in particular, the SLAM method determines at least one distinguishing feature of the scene 170, 170 'between the first state and the second state and the second object marking 195' is assigned to the distinguishing feature, at least if the distinguishing feature, e.g. the difference class already has a sufficiently good quality (e.g. statistical test with high confidence) and the artificial neural network 130 indicates a match for the remaining image content of the scene 170, 170 ', e.g. an option is offered to automatically take over object marking 195.

Claims

Ansprüche Expectations
1. Verfahren zur Objektmarkierung in Sensordaten, mit den Schritten: 1. Method for object marking in sensor data, with the steps:
- Erfassen einer Szene (170) in einem ersten Zustand durch wenigstens einen Sensor (140, 150),  - detecting a scene (170) in a first state by at least one sensor (140, 150),
- Zuordnen einer ersten Objektmarkierung (195) zu wenigstens einem in der Szene enthaltenen Objekt (180) in einem die Szene im ersten Zustand enthaltenden ersten Datensatz (190),  Assigning a first object marker (195) to at least one object (180) contained in the scene in a first data record (190) containing the scene in the first state,
gekennzeichnet durch  marked by
- Erfassen der ähnlichen oder zumindest im Wesentlichen  - Capture the similar or at least essentially
übereinstimmenden Szene (170‘) in einem zu dem ersten Zustand unterschiedlichen, zweiten Zustand durch den wenigstens einen Sensor (140, 150),  matching scene (170 ') in a second state different from the first state by the at least one sensor (140, 150),
- zumindest teilweises Übernehmen der in dem ersten Datensatz (190) enthaltenen ersten Objektmarkierung (195) für das im zweiten Zustand der Szene (170‘) erkannte Objekt (180) als zweite Objektmarkierung (195‘) in einem zweiten Datensatz (190‘).  - At least partially accepting the first object marking (195) contained in the first data record (190) for the object (180) recognized in the second state of the scene (170 ') as a second object marking (195' ') in a second data record (190 ").
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zum Erkennen der Szene (170‘) im zweiten Datensatz (190‘) dem ersten Datensatz (190) eine Ortsinformation der Szene (170) zugeordnet wird. 2. The method according to claim 1, characterized in that for recognizing the scene (170 ') in the second data record (190' '), the first data record (190) is associated with location information of the scene (170).
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zum Erkennen der Szene (170‘) im zweiten Datensatz (190‘) dem ersten Datensatz (190) eine Blickwinkel- und/oder Lageinformation der Szene (170) zugeordnet wird. 3. The method according to claim 1 or 2, characterized in that for recognizing the scene (170 ') in the second data set (190'), the first data set (190) is associated with viewing angle and / or position information of the scene (170).
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Übernehmen der ersten Objektmarkierung (195) zumindest teilweise automatisiert durch ein Künstliches-Intelligenz-Modul (120), Kl-Modul, erfolgt. 4. The method according to any one of the preceding claims, characterized in that the adoption of the first object marking (195) is at least partially automated by an artificial intelligence module (120), KL module.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass ein künstliches neuronales Netz (130) des Kl-Moduls (120) übereinstimmende Bildbereiche der Szene (170, 170‘) im ersten und zweiten Datensatz (190, 190‘) bestimmt. 5. The method according to claim 4, characterized in that an artificial neural network (130) of the KL module (120) determines matching image areas of the scene (170, 170 '') in the first and second data sets (190, 190 '').
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das künstliche 6. The method according to claim 5, characterized in that the artificial
neuronale Netz (130) eine pixelweise Übereinstimmungsmaske als Ausgabe bereitstellt.  neural network (130) provides a pixel-wise match mask as output.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass der erste und/oder zweite Datensatz (190, 190‘) dem Kl-Modul (120, 210) als 7. The method according to any one of claims 4 to 6, characterized in that the first and / or second data set (190, 190 ') to the Kl module (120, 210) as
Trainingsdatensatz (200) zugeführt wird.  Training data record (200) is supplied.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass, vorzugsweise durch ein SLAM-Verfahren, wenigstens ein 8. The method according to any one of the preceding claims, characterized in that, preferably by a SLAM method, at least one
Unterscheidungsmerkmal der Szene (170, 170‘) zwischen dem ersten Zustand und dem zweiten Zustand bestimmt wird und dem Unterscheidungsmerkmal die zweite Objektmarkierung (195) zugeordnet wird.  Distinguishing feature of the scene (170, 170 ') between the first state and the second state is determined and the second object marking (195) is assigned to the distinguishing feature.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Szene (170‘) im zweiten Zustand durch eine Bildsequenz erfasst wird und anhand von wenigstens einem dem zu markierenden Einzelbild vor- und/oder nachgelagerten Einzelbild eine ungünstige Position, aus der die Szene (170‘) im zweiten Zustand erfasst ist, kompensiert wird. 9. The method according to any one of the preceding claims, characterized in that the scene (170 ') is detected in the second state by an image sequence and an unfavorable position from which the Scene (170 ') is recorded in the second state, is compensated.
10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sich der erste Zustand und der zweite Zustand der Szene (170, 170) durch Wetterverhältnisse, Lichtverhältnisse oder ähnliches unterscheiden. 10. The method according to any one of the preceding claims, characterized in that the first state and the second state of the scene (170, 170) differ by weather conditions, lighting conditions or the like.
11. System (100) zur Objektmarkierung in Sensordaten, mit 11. System (100) for object marking in sensor data, with
- wenigstens einem ersten Sensor (140) zum Erfassen einer Szene (170, 170‘) und  - at least one first sensor (140) for detecting a scene (170, 170 ') and
- einer Datenverarbeitungseinrichtung (110),  - a data processing device (110),
dadurch gekennzeichnet, dass  characterized in that
die Datenverarbeitungseinrichtung (110) dazu eingerichtet ist,  the data processing device (110) is set up to
- wenigstens einem in der Szene (170) enthaltenen Objekt (180) in einem die Szene (170) in einem ersten Zustand enthaltenden ersten Datensatz (190) eine erste Objektmarkierung (195) zuzuordnen, und - die in dem ersten Datensatz (190) enthaltene erste Objektmarkierung (195) für das in einem zweiten Zustand der Szene erkannte Objekt (180) als zweite Objektmarkierung (195‘) in einem zweiten Datensatz (190‘) zumindest teilweise zu übernehmen. - to assign at least one object (180) contained in the scene (170) in a first data record (190) containing the scene (170) in a first state, and - to at least partially adopt the first object marking (195) contained in the first data record (190) for the object (180) recognized in a second state of the scene as the second object marking (195 ') in a second data record (190').
12. System nach Anspruch 11, gekennzeichnet durch einen zweiten Sensor (150) zur Orts- und/oder Lagebestimmung während des Erfassens der Szene (170, 170‘), wobei die Orts- und/oder Lagebestimmung der erfassten Szene (170, 170‘) zuordbar ist. 12. The system according to claim 11, characterized by a second sensor (150) for determining the location and / or position during the detection of the scene (170, 170 '), the location and / or position determination of the detected scene (170, 170' ) is assignable.
EP19773742.2A 2018-09-04 2019-09-03 Method and system for improved object marking in sensor data Pending EP3847576A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018214979.8A DE102018214979A1 (en) 2018-09-04 2018-09-04 Method and system for improved object marking in sensor data
PCT/EP2019/073385 WO2020048940A1 (en) 2018-09-04 2019-09-03 Method and system for improved object marking in sensor data

Publications (1)

Publication Number Publication Date
EP3847576A1 true EP3847576A1 (en) 2021-07-14

Family

ID=68062888

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19773742.2A Pending EP3847576A1 (en) 2018-09-04 2019-09-03 Method and system for improved object marking in sensor data

Country Status (5)

Country Link
US (1) US11521375B2 (en)
EP (1) EP3847576A1 (en)
CN (1) CN112639812A (en)
DE (1) DE102018214979A1 (en)
WO (1) WO2020048940A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610412B2 (en) * 2020-09-18 2023-03-21 Ford Global Technologies, Llc Vehicle neural network training
DE102021207093A1 (en) 2021-07-06 2023-01-12 Robert Bosch Gesellschaft mit beschränkter Haftung Apparatus and method for providing classified digital recordings to an automatic machine learning system and updating machine-readable program code therewith
DE102022209401A1 (en) 2022-01-18 2023-07-20 Robert Bosch Gesellschaft mit beschränkter Haftung Method for generating training data for an adaptive method
CN117475397B (en) * 2023-12-26 2024-03-22 安徽蔚来智驾科技有限公司 Target annotation data acquisition method, medium and device based on multi-mode sensor

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3131020B1 (en) * 2015-08-11 2017-12-13 Continental Automotive GmbH System and method of a two-step object data processing by a vehicle and a server database for generating, updating and delivering a precision road property database
EP3130891B1 (en) * 2015-08-11 2018-01-03 Continental Automotive GmbH Method for updating a server database containing precision road information
US9734455B2 (en) * 2015-11-04 2017-08-15 Zoox, Inc. Automated extraction of semantic information to enhance incremental mapping modifications for robotic vehicles
US11563895B2 (en) * 2016-12-21 2023-01-24 Motorola Solutions, Inc. System and method for displaying objects of interest at an incident scene
JP2019023858A (en) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Learning data generation device, learning data generation method, machine learning method, and program
CN107578069B (en) * 2017-09-18 2020-12-29 北京邮电大学世纪学院 Image multi-scale automatic labeling method
US10866588B2 (en) * 2017-10-16 2020-12-15 Toyota Research Institute, Inc. System and method for leveraging end-to-end driving models for improving driving task modules
US10175697B1 (en) * 2017-12-21 2019-01-08 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers
US10691943B1 (en) * 2018-01-31 2020-06-23 Amazon Technologies, Inc. Annotating images based on multi-modal sensor data

Also Published As

Publication number Publication date
CN112639812A (en) 2021-04-09
US20210081668A1 (en) 2021-03-18
WO2020048940A1 (en) 2020-03-12
DE102018214979A1 (en) 2020-03-05
US11521375B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
WO2020048940A1 (en) Method and system for improved object marking in sensor data
DE102008023970A1 (en) Method and device for identifying traffic-related information
DE102016210534A1 (en) Method for classifying an environment of a vehicle
DE102008041679A1 (en) Method for environment recognition for navigation system in car, involves storing data of object or feature in storage, and classifying object or feature by comparison of data after visual inspection of object or feature
WO2020002261A1 (en) Localization system and method for operating same
DE102018116036A1 (en) Training a deep convolutional neural network for individual routes
DE102014221803A1 (en) Method and device for determining a current driving situation
DE112020003091T5 (en) System for realizing automatic iteration of predictive model based on data operation
DE102018133457B4 (en) Method and system for providing environmental data
WO2020048669A1 (en) Method for determining a lane change indication of a vehicle, computer-readable storage medium, and vehicle
DE102020211636A1 (en) Method and device for providing data for creating a digital map
WO2020126167A1 (en) Method for identifying at least one pattern in the surroundings of a vehicle, control device for carrying out such a method, and vehicle having such a control device
DE102019214200A1 (en) Translation of training data between observation modalities
DE102017004721A1 (en) Method for locating a vehicle
DE102018007962A1 (en) Method for detecting traffic light positions
DE102021204687A1 (en) Process for scene interpretation of an environment of a vehicle
WO2017174227A1 (en) Method for determining a pose of an at least partially autonomously moving vehicle using specially selected landmarks transmitted from a back end server
DE102020110730A1 (en) Method and device for increasing the availability of an automated driving function or a driver assistance system
EP3772017A1 (en) Rail signal detection for autonomous railway vehicles
DE102021001043A1 (en) Method for the automatic detection and localization of anomalies in data recorded by means of a lidar sensor
DE102021124736A1 (en) Method and device for determining a position hypothesis
DE102018121274B4 (en) Process for visualizing a driving intention, computer program product and visualization system
WO2020164841A1 (en) Method for providing a training data set quantity, method for training a classifier, method for controlling a vehicle, computer-readable storage medium and vehicle
DE102019103192A1 (en) Method for generating training data for a digital, adaptive camera system
DE102019108722A1 (en) Video processing for machine learning

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210406

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20230821