DE102020110243A1

DE102020110243A1 - Computer-implemented method for data augmentation

Info

Publication number: DE102020110243A1
Application number: DE102020110243.7A
Authority: DE
Inventors: Artem Savkin
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2021-10-21

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Datenaugmentation, umfassend die Schritte: Bereitstellen (21) von Szenenbilddaten, die eine erste Szene darstellen, wobei die Szenenbilddaten räumliche Tiefeninformationen umfassen; Bereitstellen (22) von Objektbilddaten, die wenigstens ein Objekt (3) darstellen; Erzeugen (23), in Abhängigkeit der Szenenbilddaten, einer Einfügungskarte, welche geeignete Positionen angibt, an denen ein Objekt in die erste Szene eingefügt werden kann; Auswählen (24), anhand der Einfügungskarte, einer geeigneten Position zum Einfügen des wenigstens einen bereitgestellten Objekts (3) in die erste Szene; Mischen (25) der Szenenbilddaten und der Objektbilddaten und hierdurch Erzeugen augmentierter Szenenbilddaten, die eine zweite Szene darstellen, wobei die zweite Szene die erste Szene mitsamt dem an der ausgewählten Position eingefügten wenigstens einen Objekt (3) umfasst.The invention relates to a computer-implemented method for data augmentation, comprising the steps of: providing (21) scene image data which represent a first scene, the scene image data including spatial depth information; Providing (22) object image data which represent at least one object (3); Generating (23), as a function of the scene image data, an insertion map which indicates suitable positions at which an object can be inserted into the first scene; Using the insertion map, selecting (24) a suitable position for inserting the at least one provided object (3) into the first scene; Mixing (25) the scene image data and the object image data and thereby generating augmented scene image data which represent a second scene, the second scene comprising the first scene together with the at least one object (3) inserted at the selected position.

Description

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Datenaugmentation. Ein solches Verfahren kann beispielsweise auf dem Gebiet des autonomen Fahrens für die Erzeugung synthetischer Trainingsdaten für künstliche neuronale Netze eingesetzt werden. Des Weiteren betrifft die Erfindung eine Recheneinrichtung und ein Computerprogramm zur Ausführung eines solchen Verfahrens sowie ein computerlesbares (Speicher)medium, das Befehle zum Ausführen eines solchen Verfahrens umfasst.The invention relates to a computer-implemented method for data augmentation. Such a method can be used, for example, in the field of autonomous driving for generating synthetic training data for artificial neural networks. The invention also relates to a computing device and a computer program for executing such a method, as well as a computer-readable (storage) medium which comprises instructions for executing such a method.

Beim Übergang vom reinen Forschungsgebiet zur Anwendung muss autonomes Fahren in der Lage sein, mit einem breiten Spektrum von in der realen Welt auftretenden Verkehrsszenarien umzugehen. Dies stellt eine der wichtigsten Herausforderungen bei der Entwicklung von autonomen Fahrzeugen und ihren Wahrnehmungskomponenten dar. Die Fähigkeit, bislang unbekannte Situationen zu beherrschen, wird darüber entscheiden, ob ein solches selbstfahrendes Fahrzeug in der Lage ist, vollständig autonom zu fahren.In the transition from pure research to application, autonomous driving must be able to deal with a wide range of traffic scenarios that occur in the real world. This represents one of the most important challenges in the development of autonomous vehicles and their perceptual components. The ability to master previously unknown situations will determine whether such a self-driving vehicle is able to drive completely autonomously.

Künstliche neuronale Netzwerke haben die Verallgemeinerungsfähigkeiten von Wahrnehmungssystemen heutiger autonomer Fahrzeuge erheblich verbessert. Ihre Leistungsfähigkeit und ihr Verallgemeinerungsvermögen sind jedoch bekanntermaßen sehr datenabhängig. Dieser Umstand hat einen starken Einfluss bei der Entwicklung und Qualitätssicherung von Wahrnehmungsalgorithmen. Um sicherzustellen, dass ein bestimmtes Szenario durch ein Wahrnehmungsmodell handhabbar ist kann, sollte es bereits zuvor in einem verwendeten Trainingsdatensatz vorhanden sein.Artificial neural networks have significantly improved the generalization capabilities of the perceptual systems of today's autonomous vehicles. However, it is well known that their performance and their ability to generalize are very data-dependent. This fact has a strong influence on the development and quality assurance of perception algorithms. To ensure that a specific scenario can be handled by a perception model, it should already be present in a training data set that is used.

Entwickler verbessern fortwährend ihre Modelle, indem sie neue Szenarien im Straßenverkehr erfassen und diese mittels Fine-Tuning in das Modell integrieren. Dieser Ansatz erfordert das Annotieren jeder einzelnen neu erfassten Szene, d.h. einzelne Objekte in der jeweiligen Szene müssen in aufwendiger Weise (zumeist von Hand) mit semantischen Labeln versehen werden.Developers continuously improve their models by capturing new scenarios in road traffic and integrating them into the model by means of fine-tuning. This approach requires the annotation of each newly recorded scene, i.e. individual objects in the respective scene have to be provided with semantic labels in a complex manner (mostly by hand).

Diese auf der Erfassung kompletter realer Szenen beruhende Vorgehensweise gerät insbesondere im Zusammenhang mit sogenannten „long-tail“-Szenarien, die sehr selten vorkommen und schwierig zu erfassen sind, an ihre Grenzen. Gleiches gilt z.B. für Beinaheunfall-Szenarien oder vergleichbare Szenarien, die aus ethischen Gründen nicht nachgestellt werden können, etwa weil sie z.B. ungeschützte Verkehrsteilnehmer (Englisch: vulnerable road users - VRUs) gefährden würden.This procedure, which is based on the acquisition of complete real scenes, reaches its limits, particularly in connection with so-called “long-tail” scenarios, which occur very rarely and are difficult to capture. The same applies, for example, to near-miss scenarios or comparable scenarios that cannot be reproduced for ethical reasons, for example because they would endanger vulnerable road users (VRUs).

Für die genannten Beispiele erscheint die Verwendung synthetisch erzeugter Daten sehr vielversprechend, da damit jedwedes seltene Szenario oder Beinaheunfall-Szenario nach Bedarf und gefahrlos simuliert werden kann. Die Idee, simulierte Daten zu verwenden, ist von vielen Forschern in ihren Arbeiten adressiert worden (vgl. z.B. Ref. [4], [5], [35], [24]).The use of synthetically generated data appears to be very promising for the examples mentioned, since any rare scenario or near-miss scenario can be simulated safely and as required. The idea of using simulated data has been addressed by many researchers in their work (see e.g. Ref. [4], [5], [35], [24]).

Wegen der extremen Komplexität der Daten und der enormen Vielfalt von möglichen Szenarien ist die Idee der synthetischen Datenerzeugung insbesondere für das Gebiet des autonomen Fahrens überaus attraktiv. So hat die Verwendung synthetischer Daten auf dem Gebiet des autonomen Fahrens bereits eine relativ lange Geschichte. Ref. [26] stellte die Frage, ob Modelle, die mit synthetischen Daten für eine Fußgängererkennung trainiert wurden, auch in realen Szenarien funktionieren könnten, und Ref. [33] verwendete 3D-Modelle zum Erlernen von 2D-Formen, die an natürliche Bilder angeglichen werden können.Because of the extreme complexity of the data and the enormous variety of possible scenarios, the idea of synthetic data generation is particularly attractive for the field of autonomous driving. The use of synthetic data in the field of autonomous driving has a relatively long history. Ref. [26] asked whether models trained with synthetic data for pedestrian detection could also work in real scenarios, and Ref. [33] used 3D models to learn 2D shapes based on natural images can be adjusted.

Abgesehen vom autonomen Fahren sind synthetische Daten auch auf diversen anderen Gebieten verwendet worden. Um eine menschliche 3D-Pose akkurat vorherzusagen benutzte Ref. [30] einen synthetischen Trainingsdatensatz mit einer hohen Variabilität, um Modelle zu lernen, die gegenüber Posen, dem Beobachtungsstandpunkt und anderen Faktoren invariant sind. Ref. [36] stellte einen gesamten Datensatz, genannt SURREAL, basierend auf realistischen menschlichen Augmentationen bereit. Im Unterschied zur 3D-Posen-Abschätzung verwendeten Ref. [3] und [34] 3D-Modelle für eine Mehrfachkategorie-2D-Objekterkennung.Aside from autonomous driving, synthetic data has also been used in various other areas. In order to accurately predict a 3D human pose, Ref. [30] used a synthetic training data set with a high variability to learn models that are invariant to poses, the observer's point of view, and other factors. Ref. [36] provided an entire data set, called SURREAL, based on realistic human augmentations. In contrast to the 3D pose estimation, Ref. [3] and [34] used 3D models for multi-category 2D object recognition.

Im Zusammenhang mit dem autonomen Fahren sind virtuelle Simulatoren, wie z.B. in Ref. [7] und CARLA in Ref. [12], verwendet worden. In jüngerer Zeit haben mehrere Forschungsarbeiten synthetische Datensätze präsentiert, die aus gerenderten Bildern bestehen. Einer davon ist der Datensatz SYNTHIA (vgl. Ref. [29]), der 9400 Frames von Szenen in unterschiedlichen Beleuchtungs- und Wetterbedingungen bereitstellt. Ein weiterer Datensatz (vgl. Ref. [28]) wurde erzeugt, indem ein Videospiel-Engine benutzt wurde, um 25000 Bilder zu annotieren. Ref. [14] simulierte einen Klon des realen Datensatzes KITTI (vgl. Ref. [15]).In connection with autonomous driving, virtual simulators, such as in Ref. [7] and CARLA in Ref. [12], have been used. More recently, several research papers have presented synthetic data sets made up of rendered images. One of them is the data set SYNTHIA (see Ref. [29]), which provides 9,400 frames of scenes in different lighting and weather conditions. Another data set (see Ref. [28]) was generated using a video game engine to annotate 25,000 images. Ref. [14] simulated a clone of the real data set KITTI (see Ref. [15]).

Einige Arbeiten vereinfachten die Aufgabe und renderten einzelne Objekte, anstatt das ganze Bild zu rendern. So verwendete Ref. [17] simulierte Fußgänger, um einen Fußgänger-Detektor für ein Überwachungssystem anzulernen. Eine weitere Verwendung virtueller Menschen wurde in Ref. [9] offenbart, wobei auf eine Abschätzung einer menschlichen Pose abgezielt wurde. MixedPeds aus Ref. [10] machte von der Idee einer Fußgänger-Augmentation auf dem Gebiet des autonomen Fahrens Gebrauch. Ref. [20] spezialisierte sich auf synthetische Fußgänger in unerwarteten Verkehrssituation, wobei reale Daten angereichert wurden, und Ref. [2] nutzte eine Fahrzeug-Augmentation für eine Fahrzeug-Instanz-Segmentierung. Ein Ende-zu-Ende-trainierbares Netzwerk aus Ref. [23] befasste sich mit der räumlichen und semantischen Korrektheit beim Einfügen von Objekten in das Bild.Some work made the task easier and rendered individual objects instead of rendering the whole image. For example, Ref. [17] used simulated pedestrians to use a pedestrian detector for a To learn the monitoring system. Another use of virtual humans has been disclosed in Ref. [9] aimed at estimating a human pose. MixedPeds from Ref. [10] made use of the idea of pedestrian augmentation in the field of autonomous driving. Ref. [20] specialized in synthetic pedestrians in unexpected traffic situations, with real data being enriched, and Ref. [2] used vehicle augmentation for vehicle instance segmentation. An end-to-end trainable network from Ref. [23] dealt with the spatial and semantic correctness when inserting objects into the picture.

Die vorstehend erwähnten Ansätze haben sehr nützliche Trainingsdaten hervorgebracht; jedoch sind diese immer noch unterscheidbar von tatsächlichen „real-world“-Bildern. Dies hängt mit einer sogenannten Domänenverschiebung (Englisch: domain shift) zusammen, die durch die Simulation eingeführt wird. Damit ist gemeint, dass es im Allgemeinen zu sogenannten „domain gaps“ zwischen synthetischen und realen Daten(-Domänen) kommt. Insbesondere unterscheiden sich simulierte Daten typischerweise von realen Daten hinsichtlich der Datenverteilung und des Erscheinungsbild von Inhalten (contents). Dieses Phänomen wird allgemein auch als kovariate Verschiebung (Englisch: covariate shift) bezeichnet. Es wird als der Hauptgrund dafür angesehen, dass Modelle, die lediglich mit synthetischen Daten trainiert wurden, in ihrer Leistungsfähigkeit stark abfallen gegenüber Modellen, die mit realen Daten trainiert wurden, wenn die Modelle mit realen Daten evaluiert werden (vgl. Ref. [13]). So berichtet beispielsweise Ref. [28] von einer Verringerung der Größe meanloU um nahezu 20% für ein Segmentierungsmodell (vgl. Ref. [22]), wenn dieses mit dem Datensatz CamVid(train) (vgl. Ref. [6]) und einem synthetischen Datensatz (vgl. Ref. [28]) trainiert, aber mit dem Datensatz CamVid(val) evaluiert wurde.The approaches mentioned above have produced very useful training data; however, these are still distinguishable from actual "real-world" images. This is related to a so-called domain shift, which is introduced by the simulation. This means that there are generally so-called “domain gaps” between synthetic and real data (domains). In particular, simulated data typically differ from real data in terms of data distribution and the appearance of contents. This phenomenon is commonly referred to as a covariate shift. It is considered to be the main reason that models that were only trained with synthetic data decrease significantly in their performance compared to models that were trained with real data when the models are evaluated with real data (cf. Ref. [13]) ). For example, Ref. [28] reports a reduction in the size meanloU by almost 20% for a segmentation model (see Ref. [22]) when this is done with the data set CamVid (train) (see Ref. [6]) and a synthetic data set (see Ref. [28]), but was evaluated with the data set CamVid (val).

Aufgrund der Domänenverschiebung bzw. der kovariaten Verschiebung findet der an sich sehr vielversprechend erscheinende Ansatz, bei der Entwicklung des autonomen Fahrens synthetische Trainingsdaten zu verwenden, in der Praxis kaum Anwendung.Due to the domain shift or the covariate shift, the approach, which in itself appears very promising, of using synthetic training data in the development of autonomous driving, is rarely used in practice.

Um das vorstehend erwähnte Problem zu lösen, versuchen viele Forscher, die Diskrepanz zwischen synthetischen und realen Domänen mittels erzeugender Netzwerke (Englisch: generative networks) zu minimieren. Die meisten machen dabei Gebrauch von gegnerischem Training (Englisch: adversarial training) (vgl. Ref. [16], [31], [38]), welches jedoch selbst einer kovariaten Verschiebung unterliegen kann: Obwohl erzeugende gegnerische Netzwerke (Englisch: generative adversarial networks - GAN) lernen, visuell realistische Daten zu liefern, leiden solche Modelle i.d.R. an einem semantischen Mismatch und tendieren dazu, visuelle Artefakte in erzeugte Samples zu integrieren. Daher konzentrieren sich viele Forschungsarbeiten darauf, gegnerische Netzwerke zu verbessern, indem gewisse Beschränkungen integriert werden, um eingeführte Inkonsistenzen auszugleichen.In order to solve the above-mentioned problem, many researchers are trying to minimize the discrepancy between synthetic and real domains by means of generative networks. Most of them make use of adversarial training (cf. Ref. [16], [31], [38]), which, however, can itself be subject to a covariate shift: Although generating adversarial networks (English: generative adversarial networks - GAN) learn to deliver visually realistic data, such models usually suffer from a semantic mismatch and tend to integrate visual artifacts into generated samples. Therefore, much research focuses on improving adversarial networks by incorporating certain restrictions in order to compensate for inconsistencies introduced.

Einige ausgefeilte Ansätze versuchten, das Erscheinungsbild von Szenen zu lernen und direkt zielähnliche Bilder zu synthetisieren. Die weit überwiegende Mehrheit dieser Ansätze basiert auf generativen Modellen und macht von einer GAN-Architektur Gebrauch. So führte Ref. [1] ein Augmentations-Netzwerk ein, welches geometrisch konsistente und dabei realistische Einfügungen von Fahrzeugen synthetisiert. Andere Arbeiten fokussierten darauf, das ganze Bild in der Weise zu erzeugen, dass es den Zieldaten ähnlich ist. Beispielsweise wurde mit Pix2Pix in Ref. [25] eine Konditionierung eines gegnerischen Trainings entsprechend den Vorabinformationen über das semantische Layout eingeführt. Eine weitere Konditionierungsstrategie wurde in Ref. [27] vorgeschlagen, wobei vordefinierte Patches aus einer Datenbank benutzt wurden, um eine Bildleinwand zu erzeugen. Ref. [37] hat „Conditional GANs“ verbessert und Instanz-Informationen zusammen mit der Möglichkeit der Bildmanipulation integriert. Ref. [38] fügte einen Zyklusverlust (Englisch: cycle loss) zusätzlich zum gegnerischen (Englisch: adversarial) Verlust hinzu, um stabile und konsistente Bildübertragungsergebnisse zu erreichen. Weitere Arbeiten, wie z.B. Ref. [25], [32], die auf einem Tandem aus Zyklusverlust und gegnerischen Verlust basierten, versuchten das Erscheinungsbild und den Inhalte durch das Erlernen des latenten Darstellungsraums zu entflechten.Some sophisticated approaches have tried to learn the appearance of scenes and directly synthesize target-like images. The vast majority of these approaches are based on generative models and make use of a GAN architecture. Ref. [1] introduced an augmentation network that synthesizes geometrically consistent and realistic insertions of vehicles. Other work has focused on creating the whole image in such a way that it is similar to the target data. For example, with Pix2Pix in Ref. [25], conditioning of an opponent's training according to the prior information about the semantic layout was introduced. Another conditioning strategy was suggested in Ref. [27], using predefined patches from a database to create a canvas. Ref. [37] has improved "Conditional GANs" and integrated instance information together with the possibility of image manipulation. Ref. [38] added a cycle loss in addition to the adversarial loss in order to achieve stable and consistent image transmission results. Further works, such as Ref. [25], [32], which were based on a tandem of cycle loss and opposing loss, attempted to disentangle the appearance and content by learning the latent representation space.

Es ist Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zur Datenaugmentation anzugeben.It is the object of the present invention to specify an improved method for data augmentation.

Diese Aufgabe wird durch ein computerimplementiertes Verfahren, eine Recheneinrichtung, ein Computerprogramm sowie ein computerlesbares (Speicher)medium gemäß den unabhängigen Patentansprüchen gelöst. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen angegeben.This object is achieved by a computer-implemented method, a computing device, a computer program and a computer-readable (storage) medium according to the independent patent claims. Advantageous embodiments are specified in the dependent claims.

Es wird darauf hingewiesen, dass zusätzliche Merkmale eines von einem unabhängigen Patentanspruch abhängigen Patentanspruchs ohne die Merkmale des unabhängigen Patentanspruchs oder in Kombination mit einer Teilmenge der Merkmale des unabhängigen Patentanspruchs eine eigene und von der Kombination sämtlicher Merkmale des unabhängigen Patentanspruchs unabhängige Erfindung bilden können, die zum Gegenstand eines unabhängigen Patentanspruchs, einer Teilungsanmeldung oder einer Nachanmeldung gemacht werden kann. Dies gilt in gleicher Weise für in der Beschreibung beschriebene technische Lehren, die eine von den Merkmalen der unabhängigen Patentansprüche unabhängige Erfindung bilden können. Beispielsweise kann ein (Domänen-) Anpassungsschritt der Art wie er in einem der abhängigen Ansprüchen 7-12 beansprucht ist prinzipiell auch unabhängig von den konkreten im Anspruch 1 angegebenen Schritten ausgeführt werden, um beliebige augmentierte Bilddaten zu verändern.It should be noted that additional features of a patent claim dependent on an independent patent claim without the features of the independent patent claim or in Combination with a subset of the features of the independent claim can form a separate invention that is independent of the combination of all the features of the independent claim and can be made the subject of an independent claim, a divisional application or a subsequent application. This applies equally to technical teachings described in the description, which can form an invention that is independent of the features of the independent patent claims. For example, a (domain) adaptation step of the type as claimed in one of the dependent claims 7-12 can in principle also be carried out independently of the specific steps specified in claim 1 in order to change any augmented image data.

Ein erster Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zur Datenaugmentation. Das Verfahren kann z.B. Teil einer umfassenderen Datenverarbeitungs-Pipeline sein, welche insbesondere für die Erzeugung von augmentierten (z.B. wenigstens teilweise synthetischen) Trainingsdaten zum Trainieren einer VRU-Erkennung für das autonome Fahren eingerichtet sein kann.A first aspect of the invention relates to a computer-implemented method for data augmentation. The method can, for example, be part of a more comprehensive data processing pipeline, which can be set up in particular for the generation of augmented (e.g. at least partially synthetic) training data for training VRU recognition for autonomous driving.

Das erfindungsgemäße Verfahren gemäß dem ersten Erfindungsaspekt umfasst die Schritte: Bereitstellen von Szenenbilddaten, die eine erste Szene darstellen, wobei die Szenenbilddaten räumliche Tiefeninformationen umfassen; Bereitstellen von Objektbilddaten, die wenigstens ein Objekt darstellen; Erzeugen, in Abhängigkeit der Szenenbilddaten, einer Einfügungskarte, welche geeignete Positionen angibt, an denen ein Objekt in die erste Szene eingefügt werden kann; Auswählen, anhand der Einfügungskarte, einer geeigneten Position zum Einfügen des wenigstens einen bereitgestellten Objekts in die erste Szene; Mischen der Szenenbilddaten und der Objektbilddaten und hierdurch Erzeugen augmentierter Szenenbilddaten, die eine zweite Szene darstellen, wobei die zweite Szene die erste Szene mitsamt dem an der ausgewählten Position eingefügten wenigstens einen Objekt umfasst.The inventive method according to the first aspect of the invention comprises the steps of: providing scene image data which represent a first scene, the scene image data including spatial depth information; Providing object image data which represent at least one object; Generating, as a function of the scene image data, an insertion map which indicates suitable positions at which an object can be inserted into the first scene; Using the insertion map, selecting a suitable position for inserting the at least one provided object into the first scene; Mixing the scene image data and the object image data and thereby generating augmented scene image data which represent a second scene, the second scene including the first scene together with the at least one object inserted at the selected position.

Bei der dargestellten Szene kann es sich beispielsweise um eine Straßenverkehrsszene handeln. Das wenigstens eine eingefügte Objekt kann z.B. ein VRU, wie ein Fahrradfahrer oder Fußgänger, sein. Es ist aber auch möglich, dass das wenigstens eine Objekt ein anderes Fahrzeug, wie z.B. ein Pkw oder Lkw, darstellt. Es liegt also insbesondere im Rahmen der Erfindung, dass mittels Datenaugmentation (Englisch: data augmentation) maßgeschneiderte Verkehrsszenarien mit VRUs erzeugt werden können. Hierdurch kann beispielsweise eine im Rahmen des autonomen Fahrens eingesetzte Fußgängererkennung verbessert werden.The scene shown can be a road traffic scene, for example. The at least one inserted object can be, for example, a VRU, such as a cyclist or a pedestrian. However, it is also possible that the at least one object represents another vehicle, such as a car or truck. It is therefore particularly within the scope of the invention that data augmentation can be used to generate tailor-made traffic scenarios with VRUs. In this way, for example, pedestrian detection used in the context of autonomous driving can be improved.

Erfindungsgemäß wird dabei zunächst eine Einfügungskarte erzeugt, die Positionen in der ersten Szene angibt, welche sich zum geometrisch und/oder semantisch korrekten Einfügen des wenigstens einen Objekts eignen. Eine derartige Einfügungskarte kann auch mit dem aus dem aus dem 3D-Gaming stammenden englischen Begriff „Spawn Map“ bezeichnet werden.According to the invention, an insertion map is initially generated which indicates positions in the first scene which are suitable for the geometrically and / or semantically correct insertion of the at least one object. Such an insertion map can also be referred to using the English term “spawn map”, which comes from 3D gaming.

Die Einfügungskarte stellt vorzugsweise insbesondere eine (freie) Bodenebene (Englisch: ground level) der ersten Szene dar. Die Bodenebene kann dabei z.B. in der ersten Szene vorhandene Straßenoberfläche(n) und/oder Gehweg(e) umfassen, auf welcher das Objekt geometrisch/semantisch korrekt platziert werden kann.The insertion map preferably represents a (free) ground level (English: ground level) of the first scene. can be placed semantically correct.

Das anschließende Mischen der Szenenbilddaten und der Objektbilddaten, welches auch als „Blending“ bezeichnet werden kann, umfasst z.B. einen Render-Schritt, der mittels dem Fachmann an sich bekannter Standardmethoden, wie beispielsweise Raytracing, ausgeführt werden kann.The subsequent mixing of the scene image data and the object image data, which can also be referred to as "blending", includes, for example, a rendering step that can be carried out using standard methods known per se to the person skilled in the art, such as ray tracing.

Das Ergebnis sind augmentierte Szenenbilddaten, die eine zweite Szene darstellen, in welche das Objekt vorzugsweise geometrisch und/oder semantisch korrekt, nämlich an einer anhand der Einfügungskarte ausgewählten Position, eingefügt wurde. Das Einfügen des Objekts in die Szene kann auf Englisch auch als „in-painting“ bezeichnet werden.The result is augmented scene image data that represent a second scene into which the object was inserted, preferably geometrically and / or semantically correct, namely at a position selected on the basis of the insertion map. Inserting the object into the scene can also be referred to as "in-painting" in English.

Bei einer bevorzugten Ausführungsform beruhen die Szenenbilddaten mitsamt den darin enthaltenen räumlichen Tiefeninformationen auf einer Erfassung der Szene mittels einer Stereokamera und/oder mittels eines LIDAR-Systems. Dementsprechend kann das Verfahren gemäß einer Weiterbildung zusätzlich auch das Erzeugen der Szenenbilddaten mittels einer Stereokamera und/oder eines LIDAR-Systems umfassen.In a preferred embodiment, the scene image data, together with the spatial depth information contained therein, is based on recording the scene by means of a stereo camera and / or by means of a LIDAR system. Accordingly, according to a development, the method can additionally also include the generation of the scene image data by means of a stereo camera and / or a LIDAR system.

Es kann vorgesehen sein, dass die Szenenbilddaten in wenigstens einem Verarbeitungsschritt (d.h. wenigstens in einem Zwischenschritt bzw. als ein Zwischenstadium der Datenverarbeitung) in Form einer sogenannten Disparitätskarte (Englisch: Disparity Map) vorliegen. Derartige Disparity Maps sind dem Fachmann z.B. im Zusammenhang mit der Ableitung von Tiefeninformationen aus Bilddaten von Stereo-Kameras an sich bekannt. Dabei können Tiefen- oder Abstandsinformationen bezüglich erfasster Objekte aus einer augenscheinlichen Pixeldifferenz bzw. -verschiebung zwischen einem Paar von Stereobildern abgeleitet werden. Objekte, die sich in der Nähe der Stereokamera befinden, scheinen bei diesem Vergleich um eine beträchtliche Distanz zu „springen“, wohingegen sich weiter entferne Objekte nur wenig „bewegen“. Die scheinbare „Bewegung“ der entsprechenden Pixel ist die in der Disparity Map dargestellte Disparität.Provision can be made for the scene image data to be present in at least one processing step (ie at least in an intermediate step or as an intermediate stage of data processing) in the form of a so-called disparity map. Such disparity maps are known per se to the person skilled in the art, for example in connection with the derivation of depth information from image data from stereo cameras. In this case, depth or distance information relating to detected objects can be derived from an apparent pixel difference or shift between a pair of stereo images. In this comparison, objects that are close to the stereo camera seem to “jump” a considerable distance, whereas objects further away “move” only a little. The apparent “movement” of the corresponding pixels is the disparity shown in the disparity map.

Ferner ist möglich, dass die Szenenbilddaten in wenigstens einem Verarbeitungsschritt (d.h. wenigstens in einem Zwischenschritt bzw. als ein Zwischenstadium der Datenverarbeitung) in Form einer Tiefenkarte vorliegen. Dabei kann die Tiefenkarte beispielsweise aus einer Disparitätskarte der vorstehend erwähnten Art abgeleitet (z.B. geschätzt) werden.It is also possible for the scene image data to be present in at least one processing step (i.e. at least in an intermediate step or as an intermediate stage of the data processing) in the form of a depth map. The depth map can be derived (e.g. estimated) from a disparity map of the type mentioned above.

Alternativ oder zusätzlich kann optional vorgesehen sein, dass die Szenenbilddaten in wenigstens einem Verarbeitungsschritt (d.h. wenigstens in einem Zwischenschritt bzw. als ein Zwischenstadium der Datenverarbeitung) in Form einer Punktwolke vorliegen. Die Punktwolke kann insbesondere eine 3D-Punktwolke (wie z.B. eine Stereo-Punktwolke) sein. Dabei kann die Punktwolke beispielsweise aus einer Disparitätskarte und/oder aus einer Tiefenkarte der vorstehend erwähnten Art rekonstruiert werden, z.B. indem für jeden Pixel eine Tiefeninformation geschätzt wird.Alternatively or additionally, it can optionally be provided that the scene image data are present in at least one processing step (i.e. at least in an intermediate step or as an intermediate stage of the data processing) in the form of a point cloud. The point cloud can in particular be a 3D point cloud (such as a stereo point cloud). The point cloud can be reconstructed from a disparity map and / or from a depth map of the type mentioned above, e.g. by estimating depth information for each pixel.

In der Kombination einiger vorstehend genannter Aspekte kann somit eine vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens eine Datenverarbeitungs-Pipeline realisieren, bei welcher das Erzeugen der Einfügungskarte insbesondere die folgenden Schritte umfasst: Erstellen einer Disparitätskarte, die räumliche Informationen über die Szene enthält und die z.B. auf der Grundlage von Erfassungsdaten einer Stereokamera und/oder eines LIDAR-Systems erstellt wird; Erzeugen einer Tiefenkarte auf der Grundlage der Disparitätskarte; optional Erzeugen einer 3D-Punktwolke auf der Grundlage der Tiefenkarte; und Generieren einer Spawn Map auf der Grundlage der Punktwolke, wobei die Spawn Map insbesondere eine (freie) Bodenebene angeben kann, auf welcher das mindestens eine Objekt geometrisch und/oder semantisch korrekt eingefügt werden kann.In the combination of some of the above-mentioned aspects, an advantageous embodiment of the method according to the invention can thus implement a data processing pipeline in which the generation of the insertion map comprises the following steps in particular: Creation of a disparity map which contains spatial information about the scene and which is based, for example, on is created from detection data from a stereo camera and / or a LIDAR system; Generating a depth map based on the disparity map; optionally generating a 3D point cloud based on the depth map; and generating a spawn map on the basis of the point cloud, wherein the spawn map can in particular indicate a (free) ground plane on which the at least one object can be inserted geometrically and / or semantically correct.

Wie oben bereits erwähnt, kann das Mischen der Szenenbilddaten und der Objektbilddaten einen Render-Schritt umfassen. Ein solcher Render-Schritt kann z.B. mittels einer (virtuellen) Render-Kamera ausgeführt werden. Bevorzugt wird dabei in dem Fall, dass die Szenenbilddaten auf einer Erfassung der Szene mittels einer (echten) Kamera, wie z.B. einer Stereokamera, beruhen, die Render-Kamera mit einem oder mehreren Kalibrationsparametern kalibriert, die bei der Erfassung der Szene an der (echten) Kamera eingestellt waren. Dies kann dazu beitragen, die optische Korrektheit des Augmentationsprozesses zu verbessern.As already mentioned above, the mixing of the scene image data and the object image data can comprise a rendering step. Such a rendering step can be carried out using a (virtual) render camera, for example. In the event that the scene image data are based on a capture of the scene by means of a (real) camera, such as a stereo camera, it is preferred that the render camera is calibrated with one or more calibration parameters that were used when capturing the scene on the (real) camera ) Camera were set. This can help improve the visual correctness of the augmentation process.

Es liegt auch im Rahmen der Erfindung, dass das Verfahren ferner das Erstellen und/oder Updaten (d.h. Aktualisieren) einer Kollisionskarte umfasst, wobei die Kollisionskarte angibt, welche Positionen in der zweiten Szene bereits durch eingefügte Objekte belegt sind. Das bedeutet, dass mittels der Kollisionskarte nachverfolgt werden kann, welche Positionen in der Szene besetzt sind und welche im Gegenzug noch besetzt werden können. Beispielsweise erweitert jeder Fußgänger, der in die Szene platziert wird, die Kollisionskarte, sodass eine Überschneidung der entsprechenden grafischen Netze (Englisch: Meshes), die den Fußgänger darstellen, mit Netzen, die zu danach eingefügten Objekten gehören, verhindert werden kann.It is also within the scope of the invention that the method further comprises creating and / or updating (i.e. updating) a collision map, the collision map indicating which positions in the second scene are already occupied by inserted objects. This means that the collision map can be used to track which positions in the scene are occupied and which, in return, can still be occupied. For example, every pedestrian who is placed in the scene expands the collision map so that an overlap of the corresponding graphical networks (English: Meshes) that represent the pedestrian with networks that belong to objects inserted afterwards can be prevented.

Bei einer Ausführungsform werden dementsprechend mehrere Objekte in die erste Szene eingefügt, wobei das Auswählen einer geeigneten Position zum Einfügen des Objekts anhand der Kollisionskarte erfolgt, in der wenigstens ein zuvor eingefügtes Objekt verzeichnet ist. Die Kollisionskarte zeigt z.B. in einer Freiraum-Darstellung geeignete Positionen an, die unter Berücksichtigung ggf. zuvor eingefügter Objekte zum Einfügen des (weiteren) Objekts geeignet sind.In one embodiment, several objects are accordingly inserted into the first scene, a suitable position for inserting the object being selected using the collision map in which at least one previously inserted object is recorded. The collision map shows, e.g. in a free space representation, suitable positions that are suitable for inserting the (further) object, taking into account any previously inserted objects.

Die vorstehend beschriebenen Schritte und Varianten des erfindungsgemäßen Verfahrens zur Datenaugmentation ermöglichen insbesondere ein geometrisch und/oder semantisch korrektes Einfügen eines Objekts in eine Szene. Beispielsweise können diese Schritte insgesamt eine Phase einer umfassenderen Datenverarbeitungs-Pipeline (oder einen Teil davon) realisieren, die auch als Augmentations-Phase bezeichnet werden kann.The above-described steps and variants of the method according to the invention for data augmentation enable in particular a geometrically and / or semantically correct insertion of an object into a scene. For example, these steps as a whole can implement a phase of a more comprehensive data processing pipeline (or a part thereof), which can also be referred to as the augmentation phase.

Gemäß einer Weiterbildung umfasst das Verfahren darüber hinaus einen (Domänen-) Anpassungsschritt (Englisch: domain adaptation step), in welchem ein Erscheinungsbild des mindestens einen eingefügten Objekts in der zweiten Szene mittels eines GAN-Verfahrens verändert wird.According to one development, the method also includes a (domain) adaptation step, in which an appearance of the at least one inserted object in the second scene is changed by means of a GAN method.

Der Anpassungsschritt dient dazu, dem eingefügten Objekt ein realistischeres, an die es umgebende Szene angepasstes Aussehen zu verleihen, um nach Möglichkeit ein Domain Gap zu überbrücken. Dies kann beispielsweise Aspekte einer realistischeren Beleuchtung betreffen, die im Rahmen des Anpassungsschritt z.B. in Form von entfernten und/oder hinzugefügten Schatten und/oder Lichtpunkten bzw. Lichtflecken berücksichtigt werden können.The adjustment step is used to give the inserted object a more realistic appearance, adapted to the surrounding scene, in order to bridge a domain gap if possible. This can relate, for example, to aspects of a more realistic lighting that is part of the adjustment step eg in the form of removed and / or added shadows and / or points of light or light spots can be taken into account.

Der Anpassungsschritt kann z.B. im Rahmen einer Domänen-Anpassungsphase (Englisch: domain adaptation phase) der oben angesprochenen Datenverarbeitungs-Pipeline ausgeführt werden, die der Augmentations-Phase nachgeordnet ist. Eine solche Domänen-Anpassungsphase kann im Einklang mit einigen Ausführungsformen auch als Erscheinungsbild-Lernphase (Englisch: appearance learning phase) bezeichnet werden.The adaptation step can, for example, be carried out in the context of a domain adaptation phase of the above-mentioned data processing pipeline, which is subordinate to the augmentation phase. Such a domain adaptation phase can, in accordance with some embodiments, also be referred to as an appearance learning phase.

Bei einer bevorzugten Ausführungsform erzeugt im Rahmen des GAN-Verfahrens ein Generator auf der Grundlage der augmentierten Szenenbilddaten veränderte Bilddaten. Dabei können die veränderten Bilddaten insbesondere in Form eines oder mehrere veränderter Frames vorliegen. Beispielsweise kann man auf diese Weise nach dem Konvergieren eines entsprechenden GAN-Algorithmus angepasste Bilddaten, insbesondere einen oder mehrere angepasste Frames, erhalten, in welchen das eingefügte Objekt im Rahmen der umgebenden Szene ein realistischeres bzw. plausibleres Erscheinungsbild aufweist.In a preferred embodiment, within the scope of the GAN method, a generator generates changed image data on the basis of the augmented scene image data. The changed image data can be present in particular in the form of one or more changed frames. For example, after a corresponding GAN algorithm has converged, it is possible in this way to obtain adapted image data, in particular one or more adapted frames, in which the inserted object has a more realistic or plausible appearance in the context of the surrounding scene.

Hinsichtlich einer dabei verwendeten GAN-Architektur ist gemäß einer vorteilhaften Ausführungsform vorgesehen, dass im Rahmen des GAN-Verfahrens ein Multi-Diskriminator verwendet wird, welcher mindestens zwei Teildiskriminatoren umfasst. Jeder der Teildiskriminatoren bewertet jeweils einen von mehreren disjunkten Teilbereichen eines von dem Generator erzeugten Frames, der die veränderten Bilddaten (oder wenigstens einen Teil davon) enthält. Damit kann im Einklang mit einigen Ausführungsformen insbesondere gemeint sein, dass jeder Teildiskriminator für einen jeweils eigenen Teilbereich exklusiv zuständig ist, d.h. es ist nicht vorgesehen, dass zwei Teildiskrimatoren denselben Teilbereich bewerten.With regard to a GAN architecture used here, it is provided according to an advantageous embodiment that a multi-discriminator is used in the context of the GAN method, which includes at least two partial discriminators. Each of the partial discriminators evaluates one of several disjoint partial areas of a frame generated by the generator which contains the changed image data (or at least a part thereof). In accordance with some embodiments, this can in particular mean that each partial discriminator is exclusively responsible for its own partial area, i.e. there is no provision for two partial discriminators to evaluate the same partial area.

Die disjunkten Teilbereiche sind dabei bevorzugt einer jeweiligen semantischen Klasse (wie z.B. „Straße“, „Fußgänger“, „Vegetation“ etc.) zugeordnet.The disjoint sub-areas are preferably assigned to a respective semantic class (such as "street", "pedestrian", "vegetation" etc.).

Es ist weiterhin bevorzugt, dass jeder der Teildiskriminatoren als ein faltendes neuronales Netzwerk (Englisch: convolution neural network - CNN) ausgebildet ist, welches wenigstens eine klassenspezifische Maskierungsschicht umfasst. Dabei kann die Maskierungsschicht insbesondere einer bestimmten semantischen Klasse zugeordnet sein. Die Wirkung der Maskierungsschicht kann insbesondere derart sein, dass am Eingang des betreffenden Teildiskriminators solche Pixel, die zu irrelevanten Klassen (d.h. nicht zu der spezifischen Klasse, die der Maskierungsschicht bzw. dem Teildiskriminator zugeordnet ist) gehören, auf 0 gesetzt werden.It is further preferred that each of the partial discriminators is designed as a convolution neural network (CNN) which comprises at least one class-specific masking layer. The masking layer can in particular be assigned to a specific semantic class. The effect of the masking layer can in particular be such that at the input of the relevant partial discriminator, those pixels that belong to irrelevant classes (i.e. not to the specific class assigned to the masking layer or the partial discriminator) are set to 0.

Bei einer vorteilhaften Weiterbildung dieser Ausführungsvariante umfassen einer, mehrere oder alle der Teildiskriminatoren (jeweils) mehrere Faltungsschichten, wobei vor jeder nachfolgenden Faltungsschicht eine heruntergesampelte Version der ursprünglichen Maskierungsschicht. angewendet wird.In an advantageous further development of this embodiment variant, one, several or all of the partial discriminators (each) comprise several convolution layers, with a sampled version of the original masking layer in front of each subsequent convolution layer. is applied.

Gemäß einem zweiten Aspekt der Erfindung wird eine Recheneinrichtung vorgeschlagen, wobei die Recheneinrichtung zum Durchführen eines Verfahrens gemäß dem ersten Erfindungsaspekt ausgelegt ist. Die Recheneinrichtung kann beispielsweise in Form eines oder mehrerer Prozessoren (wie z.B. CPUs und/oder GPUs) ausgebildet sein, auf welchen die nötigen Rechenoperationen zur Durchführung des Verfahrens ablaufen.According to a second aspect of the invention, a computing device is proposed, the computing device being designed to carry out a method according to the first aspect of the invention. The computing device can be designed, for example, in the form of one or more processors (such as CPUs and / or GPUs) on which the necessary computing operations for carrying out the method run.

Ein dritter Aspekt betrifft ein Computerprogramm, welches Befehle umfasst, die bei der Ausführung des Computerprogramms durch eine Recheneinrichtung diese veranlassen, ein Verfahren gemäß dem ersten Erfindungsaspekt auszuführen.A third aspect relates to a computer program which comprises commands which, when the computer program is executed by a computing device, cause it to execute a method according to the first aspect of the invention.

Ein vierter Aspekt der Erfindung betrifft ein computerlesbares (Speicher)medium, welches Befehle umfasst, die bei der Ausführung durch eine Recheneinrichtung diese veranlassen, ein Verfahren gemäß dem ersten Aspekt auszuführen.A fourth aspect of the invention relates to a computer-readable (storage) medium which comprises instructions which, when executed by a computing device, cause the computing device to execute a method according to the first aspect.

Es versteht sich dabei, dass die vorstehend im Zusammenhang mit dem dritten und vierten Erfindungsaspekt genannte Recheneinrichtung insbesondere eine Recheneinrichtung gemäß dem zweiten Erfindungsaspekt sein kann.It goes without saying that the computing device mentioned above in connection with the third and fourth aspect of the invention can in particular be a computing device according to the second aspect of the invention.

Die Erfindung wird nun anhand von Ausführungsbeispielen sowie unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Dabei sind die in der Beschreibung genannten und/oder in den Zeichnungen alleine gezeigten Merkmale und Merkmalskombinationen nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.

1 zeigt ein schematisches Ablaufdiagramm eines computerimplementierten Verfahrens zur Datenaugmentation gemäß einer oder mehreren Ausführungsformen.
2A zeigt beispielhaft und schematisch eine Punktwolke, die aus einer Tiefenkarte einer erfassten ersten Szene rekonstruiert wurde, mitsamt einem in die erste Szene einzufügenden Fußgänger.
2B zeigt beispielhaft und schematisch eine auf der Grundlage der Punktwolke aus 2A abgeschätzte Einfügungskarte (Spawn Map) der ersten Szene, mitsamt einer (freien) Bodenebene, auf welcher der Fußgänger platziert werden kann.
2C zeigt beispielhaft und schematisch eine zweite Szene, die die erste Szene mitsamt dem eingefügten Fußgänger umfasst, als das Ergebnis eines Mischens der Szenenbilddaten der ersten Szene und der Objektbilddaten des Fußgängers.
3 zeigt beispielhaft und schematisch eine Multi-Diskriminator-Architektur mit einem Generator und drei klassenspezifischen Teildiskriminatoren, die im Rahmen eines GAN-basierten Verfahrens zur Domänenanpassung eingesetzt werden kann, um das Erscheinungsbild eingefügter Objekte in einem augmentierten Datensatz zu verändern.
4 zeigt eine beispielhafte und schematische Überblicksansicht eines klassenspezifischen Diskriminators in Form eines faltenden neuronalen Netzwerks, wobei nach jedem Faltungsblock jeweils eine (ggf. heruntergesampelte) Maskierungsschicht eingefügt ist.
5A-C veranschaulichen beispielhaft und schematisch ein Ergebnis einer Datenaugmentation mit anschließender Domänenanpassung mittels einer GAN-Multi-Diskriminator-Architektur.

The invention will now be explained in more detail using exemplary embodiments and with reference to the accompanying drawings. The features and feature combinations mentioned in the description and / or shown alone in the drawings are not only in the respectively specified combination, but can also be used in other combinations or on their own without departing from the scope of the invention.

1 shows a schematic flow diagram of a computer-implemented method for data augmentation according to one or more embodiments.
2A shows, by way of example and schematically, a point cloud that was reconstructed from a depth map of a recorded first scene, together with a pedestrian to be inserted into the first scene.
2 B shows by way of example and schematically one based on the point cloud 2A Estimated spawn map of the first scene, including a (free) ground plane on which the pedestrian can be placed.
2C shows, by way of example and schematically, a second scene that includes the first scene together with the inserted pedestrian as the result of mixing the scene image data of the first scene and the object image data of the pedestrian.
3 shows an example and schematically a multi-discriminator architecture with a generator and three class-specific partial discriminators, which can be used in the context of a GAN-based method for domain adaptation in order to change the appearance of inserted objects in an augmented data set.
4th shows an exemplary and schematic overview view of a class-specific discriminator in the form of a convolutional neural network, with a masking layer (possibly downsampled) being inserted after each convolution block.
5A-C illustrate by way of example and schematically a result of a data augmentation with subsequent domain adaptation by means of a GAN multi-discriminator architecture.

Nachfolgend wird ein Ausführungsbeispiel der vorliegenden Erfindung beschrieben. Dabei wird Datenaugmentation (Englisch: data augmentation) eingesetzt, um maßgeschneiderte Verkehrsszenarien mit ungeschützten Verkehrsteilnehmern (Englisch: vulnerable road users - VRUs) zu erzeugen. Dies kann dazu dienen, eine Fußgängererkennung zu verbessern.An embodiment of the present invention is described below. Data augmentation is used to generate tailor-made traffic scenarios with vulnerable road users (VRUs). This can serve to improve pedestrian recognition.

Es wird im Rahmen Ausführungsbeispiels eine Pipeline für die Augmentation des sogenannten Cityscape-Datensatzes (vgl. Ref. [11]) mit virtuellen Fußgängern vorgestellt (nachfolgend im Abschnitt I). Um die durch die Pipeline erzielte Augmentation realistischer zu machen, wird dabei eine neuartige Architektur eines erzeugenden Netzwerks (Englisch: generative network) zum gegnerischen Lernen (Englisch: adversarial learning) der Beleuchtungsbedingungen des Datensatzes vorgeschlagen. Der vorgeschlagene Ansatz wird anhand von Aufgaben der semantischen Segmentierung und Instanz-Segmentierung evaluiert (nachfolgend im Abschnitt II).In the context of the exemplary embodiment, a pipeline for the augmentation of the so-called cityscape data set (cf. Ref. [11]) with virtual pedestrians is presented (below in Section I). In order to make the augmentation achieved by the pipeline more realistic, a novel architecture of a generating network (English: generative network) for adversarial learning of the lighting conditions of the data set is proposed. The proposed approach is evaluated on the basis of semantic segmentation and instance segmentation tasks (below in Section II).

Bei der nachfolgenden Beschreibung des Ausführungsbeispiels wird auf die Verfahrensschritte aus den schematischen Ablaufdiagrammen, die in der 1 gezeigt sind, Bezug genommen werden.In the following description of the exemplary embodiment, reference is made to the method steps from the schematic flow charts shown in FIG 1 are shown by reference.

I. LösungsansatzI. Solution

Die vorgeschlagene Pipeline zur Datenerzeugung umfasst bei dem vorliegenden Ausführungsbeispiel zwei Teile - eine Datenaugmentationsphase (data augmentation phase) und eine Erscheinungsbild-Lernphase (appearance learning phase).In the present exemplary embodiment, the proposed pipeline for data generation comprises two parts - a data augmentation phase and an appearance learning phase.

In der ersten Phase (Datenaugmentationsphase), welche die Schritte 21-25 in 1 umfasst, werden virtuelle VRUs in eine existierende Szene eingesetzt, und das resultierende Rendering wird sodann mit dem Kameraschnappschuss der Szene (dem eigentlichen Frame) vermischt. Dieser Teil fokussiert auf die geometrische und optische Korrektheit des Mischprozesses (Englisch: blending process). Virtuelle Fußgänger sollen dabei nur an geeigneten Orten in der Szene, wie z.B. auf Gehwegen oder Straßen, angeordnet werden. Das Platzieren der 3D-Modelle erfordert auch die Vermeidung von Kollisionen unter den 3D-Modellen sowie mit bereits in der Szene vorhandenen Objekten (Fahrzeuge, Bäume, Pfosten, etc.).In the first phase (data augmentation phase), which includes the steps 21-25 in 1 virtual VRUs are inserted into an existing scene and the resulting rendering is then blended with the camera snapshot of the scene (the actual frame). This part focuses on the geometric and optical correctness of the blending process. Virtual pedestrians should only be placed in suitable locations in the scene, such as on sidewalks or streets. Placing the 3D models also requires avoiding collisions under the 3D models and with objects already in the scene (vehicles, trees, posts, etc.).

Um die optische Korrektheit des Augmentationsprozesses zu erreichen, wird eine Render-Kamera mit den Parametern der Datensatz-Kamera kalibriert. Diese Phase beruht nur auf räumlichen Informationen über die Szene und ignoriert Eigenschaften hinsichtlich des Erscheinungsbilds, wie z.B. Beleuchtungsbedingungen. Das Ergebnis dieser Phase sind reale Datensatz-Frames mit darauf befindlichen virtuellen Fußgängern, welche durch ihre synthetische Optik klar unterscheidbar sind.In order to achieve the optical correctness of the augmentation process, a render camera is calibrated with the parameters of the data record camera. This phase is based only on spatial information about the scene and ignores properties relating to the appearance, such as lighting conditions. The result of this phase are real data record frames with virtual pedestrians on them, which are clearly distinguishable thanks to their synthetic optics.

In der zweiten Phase (Erscheinungsbild-Lernphase), die den Schritt 26 in 1 umfasst, wird darauf abgezielt, visuelle Features der Datensatzszenen zu lernen und sie bei den eingefügten Fußgängern anzuwenden, so dass diese ein realistischeres Aussehen erhalten können. Dieser Teil basiert auf einer dedizierten gegnerischen Netzwerkarchitektur, von der angenommen werden kann, dass sie robust gegenüber einer Verteilungsdiskrepanz zwischen synthetischen und realen Domänen ist. Beispielsweise kann für die gegnerische Architektur ein Generator-Netzwerk aus Ref. [38] verwendet werden, welches sehr stabile und visuell ansprechende Ergebnisse gezeigt hat. Für den Diskriminatorteil wird eine hier vorgeschlagene Multi-Diskriminator-Architektur verwendet, welche im Unterabschnitt I-B beschrieben wird.In the second phase (appearance learning phase) the step 26th in 1 The aim is to learn visual features of the record scenes and apply them to the inserted pedestrians so that they can look more realistic. This part is based on a dedicated adversarial network architecture, which can be assumed to be robust against a distribution discrepancy between synthetic and real domains. For example, a generator network from Ref. [38] can be used for the opposing architecture, which has shown very stable and visually appealing results. A multi-discriminator architecture proposed here, which is described in subsection IB, is used for the discriminator part.

A. DatenaugmentationA. Data augmentation

1) Einfügungskarte (Spawn Map):1) Spawn Map:

Die Datenaugmentationsphase umfasst die in 1 schematisch dargestellten Schritte:

- Bereitstellen 21 von Szenenbilddaten, die eine erste Szene darstellen, wobei die Szenenbilddaten räumliche Tiefeninformationen umfassen;
- Bereitstellen 22 von Objektbilddaten, die wenigstens ein Objekt 3 darstellen;
- Erzeugen 23, in Abhängigkeit der Szenenbilddaten, einer Einfügungskarte (Spawn Map), welche geeignete Positionen angibt, an denen ein Objekt in die erste Szene eingefügt werden kann;
- Auswählen 24, anhand der Einfügungskarte, einer geeigneten Position zum Einfügen des wenigstens einen bereitgestellten Objekts 3 in die erste Szene;
- Mischen 25 der Szenenbilddaten und der Objektbilddaten und hierdurch Erzeugen augmentierter Szenenbilddaten, die eine zweite Szene darstellen, wobei die zweite Szene die erste Szene mitsamt dem an der ausgewählten Position eingefügten wenigstens einen Objekt 3 umfasst.

The data augmentation phase includes the in 1 steps shown schematically:

- Provide 21 scene image data representing a first scene, the scene image data including spatial depth information;
- Provide 22nd of object image data containing at least one object 3 represent;
- Produce 23 , depending on the scene image data, an insertion map (spawn map) which indicates suitable positions at which an object can be inserted into the first scene;
- Choose 24 , based on the insertion map, a suitable position for inserting the at least one provided object 3 in the first scene;
- Mix 25th the scene image data and the object image data and thereby generating augmented scene image data which represent a second scene, the second scene being the first scene together with the at least one object inserted at the selected position 3 includes.

Die Datenaugmentationsphase umfasst demnach insbesondere das Abschätzen einer sogenannten Spawn Map (Schritt 23). Das Hauptziel dieses Stadiums ist es, geeignete Stellen zu berechnen, an denen virtuelle Fußgänger platziert werden könnten, und zwar ohne das Risiko einer Kollision mit anderen Objekten, die bereits in der Szene vorhanden sind, wie z.B. Gebäude, Vegetation oder Fahrzeuge.The data augmentation phase accordingly includes in particular the assessment of a so-called spawn map (step 23 ). The main goal of this stage is to calculate suitable places where virtual pedestrians could be placed without the risk of colliding with other objects already present in the scene, such as buildings, vegetation or vehicles.

Das Abschätzen der Spawn Map beruht auf räumlichen Informationen über die Szene. Diese Informationen können typischerweise direkt von einem LIDAR-System oder einer Stereokamera erhalten werden. In dem hier beschriebenen Ausführungsbeispiel werden räumliche Daten genutzt, die aus Disparity Maps rekonstruiert werden, wobei die Disparity Maps von Stereokameras aus Cityscapes-Datensätzen erhalten werden.The estimation of the spawn map is based on spatial information about the scene. This information can typically be obtained directly from a lidar system or stereo camera. In the exemplary embodiment described here, spatial data are used which are reconstructed from disparity maps, the disparity maps being obtained from stereo cameras from cityscapes data sets.

Basierend auf den Disparity Maps sowie auf extrinsischen und intrinsischen Parametern der Kamera wird für jedes einzelne Bild eine entsprechende Tiefenkarte berechnet. 2A zeigt beispielhaft und schematisch eine Punktwolke, die aus einer Tiefenkarte einer erfassten ersten Szene rekonstruiert wurde, mitsamt einem in die erste Szene einzufügenden Fußgänger 3.Based on the disparity maps and on extrinsic and intrinsic parameters of the camera, a corresponding depth map is calculated for each individual image. 2A shows, by way of example and schematically, a point cloud that was reconstructed from a depth map of a recorded first scene, together with a pedestrian to be inserted into the first scene 3 .

Unter Verwendung einer einfachen schwellwertbasierten Heuristik zusammen mit einem „Isolation forest“-Algorithmus wird eine Bodenebene 4 (ground level) abgeschätzt und Ausreißer werden eliminiert. Die Bodenebene 4, einschließlich Gehwege und Straßenoberfläche, erlaubt es, Fußgänger einzufügen, ohne dass das Risiko besteht, dass diese auf ungeeignete Stellen, wie z.B. Gebäude oder Mauern, platziert werden. Anhand der nun zur Verfügung stehenden Spawn Map kann jeder Ort gesamplet werden, um dort einen Fußgänger semantisch korrekt einzufügen.Using a simple threshold-based heuristic together with an "isolation forest" algorithm, a ground level 4th (ground level) are estimated and outliers are eliminated. The ground level 4th , including sidewalks and road surface, allows pedestrians to be inserted without the risk of them being placed on unsuitable places such as buildings or walls. Using the spawn map that is now available, every location can be sampled in order to insert a pedestrian there in a semantically correct manner.

2B zeigt beispielhaft und schematisch eine auf der Grundlage der Punktwolke aus 2A abgeschätzte Einfügungskarte (Spawn Map) der ersten Szene, mitsamt einer (freien) Bodenebene 4, auf welcher der Fußgänger 3 platziert werden kann 2 B shows by way of example and schematically one based on the point cloud 2A Estimated spawn map of the first scene, including a (free) ground plane 4th on which the pedestrian 3 can be placed

2) Kollisionsnachverfolgung (Collision Tracking):2) Collision Tracking:

Zusätzlich wird darauf abgezielt, ein Überlappen zwischen mehreren virtuellen Fußgängern sowie ein Überlappen mit anderen dynamischen Objekten in der Szene zu vermeiden. Jeder Ort in der Szene, der bereits besetzt ist, wird unter Verwendung einer Kollisionskarte (Englisch: collision map) nachverfolgt. Daraus entsteht eine Art Freiraum-Darstellung (Englisch: free space representation). Anfänglich wird jeder rekonstruierte Stereopunkt in die Kollisionskarte eingefügt, wenn er nicht zu der Spawn Map gehört. Jeder Fußgänger, der in der Szene platziert wird, erweitert die Kollisionskarte, sodass eine Überschneidung der entsprechenden grafischen Netze (Englisch: Meshes), die den Fußgänger darstellen, mit Netzen, die zu danach eingefügten Objekten (z.B. weitere Fußgänger) gehören, verhindert werden kann.In addition, the aim is to avoid overlapping between multiple virtual pedestrians as well as overlapping with other dynamic objects in the scene. Every location in the scene that is already occupied is tracked using a collision map. This creates a kind of free space representation. Initially, each reconstructed stereo point is inserted into the collision map if it does not belong to the spawn map. Every pedestrian which is placed in the scene, expands the collision map so that an overlap of the corresponding graphical networks (English: Meshes) that represent the pedestrian with networks that belong to objects inserted afterwards (e.g. other pedestrians) can be prevented.

Im letzten Schritt 25 der Datenaugmentationsphase wird die Schicht mit dem 3D-Fußgänger-Modell gerendert und mit einem existierenden Frame aus dem Datensatz vermischt. Es soll an dieser Stelle darauf hingewiesen werden, dass die Render-Kamera mit den extrinsischen und intrinsischen Parametern der ursprünglichen Kamera, welche den Frame erfasst hat, konfiguriert werden kann, um beim Mischen 25 optische Korrektheit zu erreichenIn the last step 25th During the data augmentation phase, the slice with the 3D pedestrian model is rendered and mixed with an existing frame from the data set. It should be pointed out at this point that the render camera can be configured with the extrinsic and intrinsic parameters of the original camera that captured the frame, so that when mixing 25th to achieve optical correctness

2C zeigt beispielhaft und schematisch eine zweite Szene, die die erste Szene mitsamt dem eingefügten Fußgänger umfasst, als das Ergebnis des Mischens 25 der Szenenbilddaten der ersten Szene und der Objektbilddaten des Fußgängers 3. Das Mischen 25 (Blending/Rendern), zusammen mit dem beschriebenen Prozess des Platzierens eines Fußgängers, einschließlich der Punktwolkenrekonstruktion, der Abschätzung der Spawn Map (Schritt 23) und der Kollisionskarte sowie des platzierten virtuellen Fußgängers 3 ist somit in den 2A-C im Zusammenhang veranschaulicht. 2C shows, by way of example and schematically, a second scene, which includes the first scene together with the inserted pedestrian, as the result of the mixing 25th the scene image data of the first scene and the object image data of the pedestrian 3 . The mixing 25th (Blending / rendering), together with the described process of placing a pedestrian, including point cloud reconstruction, the estimation of the spawn map (step 23 ) and the collision map and the placed virtual pedestrian 3 is thus in the 2A-C illustrated in context.

B. DomänenanpassungB. Domain customization

In dem Domänenanpassungsmodell-Teil der Pipeline sollen Eigenschaften des Erscheinungsbilds des Ziel-Datensatzes gelernt und auf die augmentierten Modelle angewendet werden. Dies geschieht in einem in 1 dargestellten Anpassungsschritt 26, in welchem ein Erscheinungsbild des mindestens einen eingefügten Objekts in der zweiten Szene mittels eines GAN-basierten Verfahrens verändert wird. Dabei sollen die Fußgänger ein realistisches Aussehen, z.B. hinsichtlich einer realistischeren Beleuchtung, erhalten.In the domain adaptation model part of the pipeline, properties of the appearance of the target data set are to be learned and applied to the augmented models. This is done in an in 1 adjustment step shown 26th , in which an appearance of the at least one inserted object in the second scene is changed by means of a GAN-based method. The pedestrians should be given a realistic appearance, for example with regard to more realistic lighting.

1) Verschwindende Fußgänger:1) Disappearing pedestrians:

Der Anpassungsteil basiert auf dem weitverbreiteten gegnerischen Training (vgl. Ref. [16]), bei welchem zwei neuronale Netzwerke gegeneinander agieren. Das erste neuronale Netzwerk wird Generator genannt. Es erhält Samples aus Quelldaten oder Rauschvektoren, um ein von den Zieldaten ununterscheidbares Bild zu synthetisieren. Das zweite neuronale Netzwerk, Diskriminator genannt, versucht im Gegenzug, die synthetisierten Bilder und die Zielbilder auseinanderzuhalten und bestraft den Generator entsprechend. Während des Trainings wird darauf abgezielt, in einem Nullsummenspiel zwischen den Netzwerken ein Gleichgewicht zu finden. Dies wird fortgesetzt, bis im Idealfall die Prädiktion des Diskriminators nur mehr zu einem zufälligen Raten (Englisch: random guessing) äquivalent ist. Derartige GAN-Verfahren sind dem Fachmann an sich bekannt und werden daher als solche vorliegend nicht im Detail erläutert.The adaptation part is based on the widespread opposing training (see Ref. [16]), in which two neural networks act against each other. The first neural network is called a generator. It receives samples from source data or noise vectors in order to synthesize an image indistinguishable from the target data. In return, the second neural network, called the discriminator, tries to distinguish the synthesized images and the target images and punishes the generator accordingly. During training, the aim is to find a balance in a zero-sum game between the networks. This is continued until, in the ideal case, the prediction of the discriminator is only equivalent to random guessing. Such GAN methods are known per se to the person skilled in the art and as such are therefore not explained in detail here.

Wenn das gegnerische Lernen konvergiert, stellt es einen Satz von synthetisierten Samples mit einer Verteilung bereit, die den Zieldaten ähnelt. Obwohl gegnerisches Lernen für eine Aufgabe der Domänenanpassung ein mächtiges Instrument ist, erzeugt es im Allgemeinen synthetische Unstimmigkeiten (Englisch: mismatches) zwischen Quelldaten und erzeugten Daten. Während der Generator ermutigt wird, Störungen in den Quellbildern auszuführen, identifiziert der Diskriminator Diskrepanzen zwischen zwei Domänen sehr gut und steuert die Störungen, um die Diskrepanzen auszugleichen. Durch das gegnerische Training können jedoch Inkonsistenzen in die Bilddaten eingeführt werden.When the adversary learning converges, it provides a set of synthesized samples with a distribution similar to the target data. Although adversarial learning is a powerful tool for a domain matching task, it generally creates synthetic mismatches between source data and generated data. While the generator is encouraged to introduce perturbations in the source images, the discriminator identifies discrepancies between two domains very well and controls the perturbations to compensate for the discrepancies. However, the opposing training can introduce inconsistencies into the image data.

Beispielsweise erkennt in dem hier vorgestellten Ausführungsbeispiel eines Setups zur Anpassung von adaptiert zu real der Diskriminator mit Leichtigkeit fremde Fußgänger und ermutigt den Generator, diese weg zu rendern, um die Ausgangsverteilung wiederherzustellen. Dies hat einen unerwünschten Effekt in der Datenerzeugung-Pipeline, da eingefügte Objekte hierdurch wieder verschwinden können. For example, in the exemplary embodiment presented here of a setup for adapting from adapted to real, the discriminator detects unfamiliar pedestrians with ease and encourages the generator to render them away in order to restore the output distribution. This has an undesirable effect in the data generation pipeline, as it can cause inserted objects to disappear again.

Ein solches Verhalten kann bei vielen Domänenanpassungsmodell-Setups beobachtet werden. Im Allgemeinen können derartige Inkonsistenzen das Lernen mit synthetisierten Daten stark beeinflussen, da die sogenannte Ground Truth der Quelle nicht mehr zu den entsprechenden Bildern passt. Mit der Ground Truth sind dabei „wahre“ Referenzdaten gemeint, die z.B. in Form von semantischen Annotierungen vorliegen können, welche vorab manuell oder maschinell erstellt worden sind.Such behavior can be observed in many Domain Adaptation Model setups. In general, such inconsistencies can strongly influence learning with synthesized data, since the so-called ground truth of the source no longer matches the corresponding images. The ground truth means "true" reference data, which can be in the form of semantic annotations, for example, which have been created manually or automatically in advance.

2) Multi-Diskriminator:2) Multi-discriminator:

Im Rahmen des vorliegenden Ansatzes wird ein neuartiges GAN-Modell (GAN = Generative Adversarial Networks - erzeugende gegnerische Netzwerke) vorgestellt, das dafür ausgelegt ist, mit Verteilungsdiskrepanzen umzugehen, indem der Diskriminator in mehrere Diskriminatoren aufgespalten wird. Die dieser Methode zu Grunde liegende Motivation ist es, die Entscheidungsfreiheit des Diskriminators zu reduzieren, um die Verteilungsdiskrepanz zwischen dem Quelldatensatz und dem Zieldatensatzes zu überwinden. Es wird vorgeschlagen, den auf den Inhalt (Englisch: content) bezogenen Freiheitsgrad zu eliminieren und den Diskriminator stattdessen nur auf bestimmte Features, die das Erscheinungsbild eines jeweiligen Samples betreffen, fokussieren zu lassen.In the context of the present approach, a novel GAN model (GAN = Generative Adversarial Networks - generating opposing networks) is presented, which is designed to with Dealing with distribution discrepancies by splitting the discriminator into several discriminators. The motivation on which this method is based is to reduce the discriminator's freedom of choice in order to overcome the distribution discrepancy between the source data set and the target data set. It is proposed to eliminate the degree of freedom related to the content and instead let the discriminator focus only on certain features that affect the appearance of a particular sample.

Zu diesem Zweck wird die Anzahl der Diskriminatoren erhöht, wobei jeder der Diskriminatoren nur einen Teil des erzeugten Bildes bewertet, welcher einer jeweiligen semantischen Klasse entspricht. Dies kann erreicht werden, indem das synthetisierte Bild in mehrere disjunkte Bereiche (Englisch: patches) aufgesplittet wird, wobei jeder Bereich eine semantische Klasse enthält, und indem nur dieser jeweilige Bereich einem entsprechenden Diskriminator übergeben wird.For this purpose, the number of discriminators is increased, each of the discriminators evaluating only a part of the generated image which corresponds to a respective semantic class. This can be achieved by splitting the synthesized image into several disjoint areas (English: patches), each area containing a semantic class, and by only passing this respective area to a corresponding discriminator.

Eine vollständige Ansicht der Multi-Diskriminator-Architektur ist schematisch in 3 dargestellt. In dieser Darstellung ist ein Generator Gen erkennbar, welchem als Eingang ein Bild eines augmentierten Datensatzes übergeben wird, wobei im Wege der Augmentation insbesondere Fußgänger 3 hinzugefügt wurden. Der Generator Gen übersetzt augmentierte Bilder in realistische Bilder, und seine Ausgabe wird sodann mittels semantischer Karten in mehrere Bereiche aufgesplittet. Jeder dieser Bereiche wird danach einem dedizierten Teildiskriminator Dis_road, Dis_ped, Dis_veg bereitgestellt. So werden z.B. dem Teildiskriminator Dis_road solche Bildbereiche zugeordnet, die eine Straße zeigen, dem Teildiskriminator Dis_ped werden Bildbereiche übergeben, die Fußgänger darstellen, und der Teildiskriminator Dis_veg ist für Bildbereich zuständig, die Vegetation abbilden.A full view of the multi-discriminator architecture is shown schematically in 3 shown. In this representation, a generator gene can be seen, to which an image of an augmented data set is transferred as input, with pedestrians in particular being augmented 3 were added. The generator Gen translates augmented images into realistic images, and its output is then split into several areas using semantic maps. Each of these areas is then made available to a dedicated partial discriminator Dis _road , Dis _ped , Dis _veg . For example, the partial discriminator Dis _{road is} assigned image areas that show a street, the partial discriminator Dis _ped is assigned image areas that depict pedestrians, and the partial discriminator Dis _veg is responsible for image areas that depict vegetation.

Durch das Trainieren eines solchen Multi-Diskriminators wird jeder der aufgesplitteten (Teil)Diskriminatoren auf die Erscheinungsbild-Features einer jeweiligen Klasse spezialisiert. Um dies zu erreichen, wird mittels einer speziellen aggregierten Verlustfunktion (Englisch auch: objective) optimiert.By training such a multi-discriminator, each of the split (partial) discriminators is specialized in the appearance features of a respective class. In order to achieve this, optimization is carried out using a special aggregated loss function (English also: objective).

Diese aggregierte Verlustfunktion, die für den Multi-Diskriminator vorgesehen ist, setzt sich aus allen klassenspezifischen Verlustfunktionen zusammen: $a d v (G_{r}, D_{r}) = \sum_{c}^{N_{c}} (D_{r}^{c}, G_{r})$

This aggregated loss function, which is provided for the multi-discriminator, is composed of all class-specific loss functions:

a d v (G_{r}, {D.}_{r}) = \sum_{c}^{N_{c}} ({D.}_{r}^{c}, G_{r})

In Gleichung (1) steht c für eine jeweilige Klasse und N_c ist eine Gesamtanzahl von Klassen in einem Datensatz. Bei dem vorliegenden Ausführungsbeispiel eines Übertragens augmentierter Bilder ist die Anzahl von Klassen N_c = 2, sodass sich die Architektur auf nur zwei Diskriminatoren vereinfacht: Einer für die Klasse „Fußgänger“ und einer für den Rest. Die vereinfachte Version der Verlustfunktion gemäß Gleichung (1) reduziert sich dementsprechend zu: $a d v (G_{r}, D_{r}) = (D_{r}^{p}, G_{r}) + (D_{r}^{r}, G_{r})$

In equation (1), c stands for a respective class and N _c is a total number of classes in a data set. In the present exemplary embodiment of a transmission of augmented images, the number of classes N _c = 2, so that the architecture is simplified to only two discriminators: One for the “pedestrian” class and one for the rest. The simplified version of the loss function according to equation (1 ) is reduced accordingly to:

a d v (G_{r}, {D.}_{r}) = ({D.}_{r}^{p}, G_{r}) + ({D.}_{r}^{r}, G_{r})

3) Maskieren:3) Masking:

Für jeden klassenspezifischen Diskriminator wird bei dem vorliegenden Ausführungsbeispiel die Patch-GAN-Architektur aus Ref. [21] übernommen. Um sicherzustellen, dass jedem dieser Diskriminatoren nur Einzel-Klassen-Bereiche (Englisch: single-class patches) des Eingangsbildes übergeben werden, werden alle Pixel irrelevanter Klassen maskiert, indem sie durch 0-Werte ersetzt werden. Ein Maskieren allein der Eingangsbilder reduziert jedoch nicht die Fortpflanzung des Signals von dem gesamten Bild, denn aufgrund der Faltung kann eine Anwendung einer Maske an Features beim Forward-Pass durch das neuronale Netzwerk die Propagierung des Signals von unerwünschten Teilen des Bildes nicht verhindern.In the present exemplary embodiment, the patch GAN architecture from Ref. [21] is adopted for each class-specific discriminator. To ensure that only single-class patches of the input image are passed to each of these discriminators, all pixels of irrelevant classes are masked by replacing them with 0 values. However, masking the input images alone does not reduce the propagation of the signal from the entire image, because due to the convolution, applying a mask to features during the forward pass through the neural network cannot prevent the propagation of the signal from undesired parts of the image.

Daher werden bei der vorliegenden Lösung Aktivierungen, die ihren Ursprung in unerwünschten Bereichen des Eingangsbildes haben, auf jeder Ebene des Diskriminators abgeschnitten. Zu diesem Zweck wird eine Maskierungsschicht (MaskLayer) eingeführt, und es wird nach jeder Faltungsschicht (Englisch: convolutional layer) des Diskriminators eine heruntergesampelte Version M^c der ursprünglichen Maske angewendet, wobei c eine jeweilige Klasse auf den Feature-Karten bezeichnet.Therefore, in the present solution, activations that originate in undesired areas of the input image are cut off at each level of the discriminator. For this purpose a masking layer (MaskLayer) is introduced, and after each convolutional layer of the discriminator a downsampled version is used M ^c applied to the original mask, where c denotes a respective class on the feature cards.

Ein detaillierterer Überblick einer klassenspezifischen Diskriminator-Architektur ist in 4 dargestellt. Diese zeigt einen klassenspezifischen Teildiskriminator für eine Klasse c (hier: Fußgänger) in Form eines faltenden neuronalen Netzwerks mit einer Maskierungsschicht M^c . Dabei ist nach jedem Faltungsblock jeweils eine entsprechend heruntergesampelte Version der ursprünglichen Maskierungsschicht M^c eingefügt.A more detailed overview of a class-specific discriminator architecture is given in 4th shown. This shows a class-specific partial discriminator for a class c (here: pedestrian) in the form of a convolutional neural network with a masking layer M ^c . After each convolution block there is a correspondingly downsampled version of the original masking layer M ^c inserted.

4) Kostensensitiver Verlust:4) Cost sensitive loss:

Die hier vorgeschlagene Adaptions-Pipeline besteht aus Paaren von Eingangsbildern xⁱ der Größe 3 × h × w zusammen mit entsprechenden Labeln yⁱ aus dem augmentierten Datensatz ${(x_{a}^{i}, y_{a}^{i})}_{i = 1}^{N_{a}} und Paaren {(x_{r}^{j}, y_{r}^{j})}_{j = 1}^{N_{r}}$

aus der realen Domäne.The adaptation pipeline proposed here consists of pairs of input images x ⁱ of size 3 × h × w together with corresponding labels y ⁱ from the augmented data set

{(x_{a}^{i}, y_{a}^{i})}_{i = 1}^{N_{a}} and couples {(x_{r}^{j}, y_{r}^{j})}_{j = 1}^{N_{r}}

from the real domain.

Die Zufallsvariable x nimmt im Eingangsverteilungsraum x die Werte $x_{a}^{i}$

und im Label-Verteilungsraum y die Werte

y_{a}^{i}

an, welche unabhängig und identisch verteilt sind und der gemeinsamen Wahrscheinlichkeitsverteilung P_a(x,y) folgen:

\begin{matrix} x_{a}^{i} \in X_{a} \subset X \subset ℕ^{3 \times h \times w}, i = 0, 1, \dots, N_{a} \\ y_{a}^{i} \in Y_{a} \subset Y \subset ℕ^{h \times w}, i = 0, 1, \dots, N_{a} \\ {(x_{a}^{i}, y_{a}^{i})}_{i = 1}^{N_{a}} \sim P_{a} (x, y) \end{matrix}

The random variable x takes the values in the input distribution space x

x_{a}^{i}

and the values in the label distribution space y

y_{a}^{i}

which are independently and identically distributed and _{follow the common probability distribution P a} (x, y):

\begin{matrix} x_{a}^{i} \in X_{a} \subset X \subset ℕ^{3 \times H \times w}, i = 0, 1, ..., N_{a} \\ y_{a}^{i} \in Y_{a} \subset Y \subset ℕ^{H \times w}, i = 0, 1, ..., N_{a} \\ {(x_{a}^{i}, y_{a}^{i})}_{i = 1}^{N_{a}} \sim {P.}_{a} (x, y) \end{matrix}

Die realen Samples $x_{r}^{j}$

folgen ihrerseits einer anderen Wahrscheinlichkeitsverteilung P_r:

\begin{matrix} x_{r}^{j} \in X_{r} \subset X \subset ℕ^{3 \times h \times w}, j = 0, 1, \dots, N_{r} \\ y_{r}^{j} \in Y_{r} \subset Y \subset ℕ^{h \times w}, j = 0, 1, \dots, N_{r} \\ {(x_{r}^{j}, y_{r}^{j})}_{j = 1}^{N_{r}} \sim P_{r} (x, y) \end{matrix}

The real samples

x_{r}^{j}

in turn follow a different probability distribution P _r :

\begin{matrix} x_{r}^{j} \in X_{r} \subset X \subset ℕ^{3 \times H \times w}, j = 0, 1, ..., N_{r} \\ y_{r}^{j} \in Y_{r} \subset Y \subset ℕ^{H \times w}, j = 0, 1, ..., N_{r} \\ {(x_{r}^{j}, y_{r}^{j})}_{j = 1}^{N_{r}} \sim {P.}_{r} (x, y) \end{matrix}

Bei dem klassenspezifischen Diskriminator werden die Fehlerwerte lediglich mit Bezug auf die relevanten Bereiche berechnet; die Masken M^c werden daher auch bei der Fehlerberechnung angewendet. Dementsprechend nimmt die Verlustfunktion des Klassen-Diskriminators die folgende Form an: $\begin{array}{l} (D_{r}^{c}, G_{r}) = E_{(x_{r}, y_{r})} [\frac{1}{w h} {‖ D_{r}^{c} (x_{r}, M^{c}) \circ M^{c} (y_{r}) ‖}_{F^{2}}] \\ + E_{(x_{a}, y_{a})} [\frac{1}{w h} {‖ (D_{r}^{c} (G_{r} (x_{a}), M^{c}) - J) \circ M^{c} (y_{a}) ‖}_{F^{2}}] \end{array}$

In the case of the class-specific discriminator, the error values are only calculated with reference to the relevant areas; the masks M ^c are therefore also used in the calculation of errors. Accordingly, the loss function of the class discriminator takes the following form:

\begin{array}{l} ({D.}_{r}^{c}, G_{r}) = {E.}_{(x_{r}, y_{r})} [\frac{1}{w H} {‖ {D.}_{r}^{c} (x_{r}, {M.}^{c}) \circ {M.}^{c} (y_{r}) ‖}_{{F.}^{2}}] \\ + {E.}_{(x_{a}, y_{a})} [\frac{1}{w H} {‖ ({D.}_{r}^{c} (G_{r} (x_{a}), {M.}^{c}) - J) \circ {M.}^{c} (y_{a}) ‖}_{{F.}^{2}}] \end{array}

Dabei bezeichnet

den Erwartungswert des jeweiligen Ausdrucks bei Mittelung über die betreffenden, im Index angegebenen Datensamples. Ohne den Einfluss der hier eingeführten Maske M^c würde die Gleichung (5) eine dem Fachmann an sich geläufige Formulierung der Verlustfunktion eines GANs angeben. Dabei ist

D_{r}^{c}

eine Mapping-Funktion, die durch den jeweiligen Klassen-Diskriminator (d.h. durch das entsprechende neuronale Netzwerk) approximiert ist, und G_r ist eine Mapping-Funktion, die durch den Generator approximiert ist. Ferner bezeichnet J eine Einheitsmatrix der Dimension h × w und || · ||_F
2 ist eine Frobenius-Norm.Here designated

the expected value of the respective expression when averaged over the relevant data samples specified in the index. Without the influence of the mask introduced here M ^c Equation (5) would indicate a formulation of the loss function of a GAN that is familiar to the person skilled in the art. It is

{D.}_{r}^{c}

a mapping function which is approximated by the respective class discriminator (ie by the corresponding neural network), and G _r is a mapping function which is approximated by the generator. Furthermore, J denotes an identity matrix of the dimension h × w and || · || _F. ₂ is a Frobenius norm.

Es ist beabsichtigt, dass masked MSE auf die Größe des tatsächlichen Samples normalisiert wird, da dies dazu führt, dass Masken unterschiedlicher Größe in unterschiedlicher Weise zu dem jeweiligen Verlust beitragen. Das Modell wird ermutigt, von Samples mit prominenteren Instanzen interessierender Klassen (z.B. Fußgänger) mehr zu lernen, wodurch mehr Informationen über das Erscheinungsbild bereitgestellt wird.It is intended that masked MSE be normalized to the size of the actual sample, as this will result in masks of different sizes contributing differently to each loss. The model is encouraged to learn more from samples with more prominent instances of classes of interest (e.g. pedestrians), thereby providing more information about appearance.

Eine naive Anwendung dieser Verlustfunktion bei der Prozedur des gegnerischen Trainings führt natürlicherweise dazu, dass der Hintergrund, welcher normalerweise den größten Teil eines Bildes einnimmt (Straße, Gebäude, etc.), stärker betont wird. Im Falle des Datensatzes augmented cityscapes stellen rund 95 % der Pixel Nicht-Fußgänger-Klassen dar. Dies macht die Aufgabe hochgradig unausgeglichen, da Nicht-Fußgänger-Pixel mit 19-facher Intensität zu der Gesamt-Verlustfunktion beitragen würden. Es ist daher erstrebenswert, den Effekt von dominierenden Klassen datensatzweit zu eliminieren, wenn Daten vorliegen, die hinsichtlich der Klassen unbalanciert sind.A naive application of this loss function in the procedure of the opponent's training naturally leads to the background, which normally occupies the largest part of an image (street, buildings, etc.), being emphasized more strongly. In the case of the augmented cityscapes data set, around 95% of the pixels represent non-pedestrian classes. This makes the task highly unbalanced, since non-pedestrian pixels would contribute 19 times the intensity to the overall loss function. It is therefore desirable Eliminate the effect of dominating classes across the data set when data is available that is unbalanced with regard to the classes.

Dies kann mittels eines Gewichtsfaktors λ als Hyper-Parameter erreicht werden. Experimente haben ergeben, dass dies am besten funktioniert, wenn λ das tatsächliche Klassenverhältnis in dem Datensatz widerspiegelt: $λ = \frac{\sum_{y} {‖ M_{p} (y) ‖}_{1}}{\sum_{y} {‖ M_{r} (y) ‖}_{1}}$

This can be achieved by means of a weight factor λ as a hyper parameter. Experiments have shown that this works best when λ reflects the actual class ratio in the data set:

λ = \frac{\sum_{y} {‖ {M.}_{p} (y) ‖}_{1}}{\sum_{y} {‖ {M.}_{r} (y) ‖}_{1}}

Eine analoge Berechnung wird im Fall eines Multi-Diskriminators mit mehr als zwei interessierenden Klassen angewendet.An analogous calculation is used in the case of a multi-discriminator with more than two classes of interest.

Die kostensensitive Gesamt-Verlustfunktion (overall cost-sensitive objective) nimmt daher die folgende Form an: $\begin{array}{l} = λ_{c y c} c y c + a d v (D_{r}^{p}, G_{r}) + λ a d v (D_{r}^{r}, G_{r}) + a d v (D_{a}^{p}, G_{a}) \\ + λ a d v (D_{a}^{r}, G_{a}) \end{array}$

The overall cost-sensitive objective therefore takes the following form:

\begin{array}{l} = λ_{c y c} c y c + a d v ({D.}_{r}^{p}, G_{r}) + λ a d v ({D.}_{r}^{r}, G_{r}) + a d v ({D.}_{a}^{p}, G_{a}) \\ + λ a d v ({D.}_{a}^{r}, G_{a}) \end{array}

Darin bezeichnet $c y c$

den zyklischen Konsistenzverlust (cyclic-consistency loss) zusammen mit seinem Gewicht λ_cyc, wie in Ref. [38] eingeführt.Inscribed therein

c y c

the cyclic-consistency loss together with its weight λ _cyc , as introduced in Ref. [38].

Nachdem nun die Verlustfunktion definiert ist, wird die Prozedur des gegnerischen Trainings ausgeführt, um wie folgt zu optimieren: $min_{G_{r}, G_{a}} max_{D_{r}^{p}, D_{a}^{p}, D_{r}^{r}, D_{a}^{r}} (G_{r}, G_{a}, D_{r}^{p}, D_{a}^{p}, D_{r}^{r}, D_{a}^{r})$

Now that the loss function has been defined, the opponent's training procedure is carried out to optimize as follows:

min_{G_{r}, G_{a}} \underset{{D.}_{r}^{p}, {D.}_{a}^{p}, {D.}_{r}^{r}, {D.}_{a}^{r}}{Max} (G_{r}, G_{a}, {D.}_{r}^{p}, {D.}_{a}^{p}, {D.}_{r}^{r}, {D.}_{a}^{r})

II. Experimentelle EvaluationII. Experimental evaluation

Es wurden Experimente auf der Grundlage des weit verbreiteten, öffentlich zugänglichen Datensatzes Cityscapes (vgl. Ref. [11]) durchgeführt. Dieser stellt alle Daten bereit, die für die Datenerzeugung benötigt werden: Kamera-Frames und Disparity Maps nebst Kalibrationsparametern, um die Augmentation zu ermöglichen, sowie die Ground Truth für die Computer-Vision-Aufgabe, um damit Evaluationen durchzuführen.Experiments were carried out on the basis of the widely used, publicly accessible data set Cityscapes (cf. Ref. [11]). This provides all the data required for data generation: camera frames and disparity maps along with calibration parameters to enable augmentation, as well as the ground truth for the computer vision task to carry out evaluations.

A. DatensätzeA. Records

Der zu verwendende Datensatz muss mehrere Kriterien erfüllen: Er muss Informationen über räumliche Eigenschaften der Szene, die augmentiert werden soll, bereitstellen, und er soll auch die Ground Truth zum Ausführen der Computer-Vision-Aufgabe und zur Evaluation mit den erzeugten Daten bereitstellen.The data set to be used must meet several criteria: it must provide information about spatial properties of the scene to be augmented, and it must also provide the ground truth for performing the computer vision task and for evaluation with the data generated.

Cityscapes ist ein umfangreicher Computer-Vision-Datensatz, welcher 5000 Kamera-Schnappschüsse der Größe 2048 × 1024 Pixel zusammen mit dichten Labels für die Pixel-Segmentierung bereitstellt. Die Annotierungen liefern die Ground Truth sowohl für die semantische Segmentierung als auch für die Instanzsegmentierung. Der Datensatz beruht auf Messungen in Städten in ganz Deutschland (und Straßburg) und zu unterschiedlichen Jahreszeiten sowie Wetter- und Tageszeitbedingungen. Die Bilder sind aufgeteilt in die Sets train, val und test mit 2975, 500 bzw. 1525 Samples. Neben den feinmaschigen Annotierungen stellt der Datensatz 20.000 schwach annotierte Bilder bereit; letztere wurden vorliegend jedoch nicht benutzt. Semantische Karten enthalten Informationen über 30 Klassen, wie z.B. road, sidewalk, person, car, etc. und die Instanzsegmentierung bezieht 8 Kategorien ein: person, rider, car, truck, bus, train, motorcycle, bicycle.Cityscapes is an extensive computer vision dataset that provides 5000 camera snapshots with a size of 2048 × 1024 pixels together with dense labels for pixel segmentation. The annotations provide the ground truth for both the semantic segmentation and the instance segmentation. The data set is based on measurements in cities across Germany (and Strasbourg) and at different times of the year, weather and time of day conditions. The images are divided into the sets train, val and test with 2975, 500 and 1525 samples. In addition to the fine-meshed annotations, the data set provides 20,000 weakly annotated images; however, the latter were not used here. Semantic maps contain information about 30 classes, such as road, sidewalk, person, car, etc. and the instance segmentation includes 8 categories: person, rider, car, truck, bus, train, motorcycle, bicycle.

Mit der hier vorgeschlagenen Augmentations-Pipeline wird der Datensatz augmented citiyscapes erzeugt, der aus 2975 Bildern der Auflösung 2048 × 1024 besteht, wobei 5 virtuelle Fußgänger zufällig eingefügt wurden. Zu allen Bildern werden sowohl eine semantische Karte als auch eine Instanzkarte erzeugt. Hinsichtlich der Klassen und Kategorien wird dem standardmäßigen Cityscapes-Annotationsformat gefolgt.With the augmentation pipeline proposed here, the data set augmented citiyscapes is generated, which consists of 2975 images with a resolution of 2048 × 1024, with 5 virtual pedestrians being inserted at random. Both a semantic map and an instance map are generated for all images. The standard Cityscapes annotation format is followed for classes and categories.

Nachdem augmented citiyscapes erzeugt worden ist, wird darauf das GAN-Modell multidiscriminator GAN, welches im Abschnitt III-B eingeführt wurde, für 200 Epochen trainiert. Das Modell wurde „from scratch“ trainiert, wobei cyclic weight auf 10 gesetzt war und cost sensitive λ = 0,2. Wie in Ref. [38] wird mit einer Lernrate von 0,0002 gestartet, und diese wird für die ersten 100 Epochen konstant gehalten, bevor sie über weitere 100 Epochen hinweg auf null abfällt. Für das Training wurden die Bilder um einen Faktor 2 herunterskaliert, und es wurden keine sogenannten Random Crops verwendet. (Typischerweise werden neuronale Netzwerke nicht anhand von Bildern mit voller Auflösung trainiert, sondern auf zufällig ausgewählten Bildausschnitten kleinerer Auflösung, die als Random Crops bezeichnet werden.)After augmented citiyscapes has been generated, the GAN model multidiscriminator GAN, which was introduced in Section III-B, is trained for 200 epochs. The model was trained “from scratch”, with cyclic weight set to 10 and cost sensitive λ = 0.2. As in Ref. [38], a learning rate of 0.0002 is started and this is held constant for the first 100 epochs before falling to zero over a further 100 epochs. For the training, the pictures were increased by a factor 2 scaled down and no so-called random crops were used. (Typically, neural networks are not trained on the basis of images with full resolution, but rather on randomly selected image sections of lower resolution, which are known as random crops.)

Zur Evaluation der übersetzten Ergebnisse werden mehrere Experimente durchgeführt, und die Ergebnisse werden sowohl qualitativ als auch quantitativ bewertet. Ein Beispiel der Augmentation und Anpassung ist in den 5A-C schematisch veranschaulicht. Um die durch den vorliegenden Adaptionsansatz hervorgebrachten Effekte zu visualisieren, wird darin sowohl das augmentierte als auch das übersetzte Bild zusammen mit manuell ausgewählten Crops, wo diese Effekte charakteristisch hervortreten, in schematischer Form gezeigt. So veranschaulicht 5A eine adaptierte Szene mitsamt eingefügten Fußgängern 3. 5C veranschaulicht schematisch (im Rahmen der Möglichkeiten einer schwarz-weißen Strichzeichnung) das Ergebnis der Domänenanpassung. In 5B ist links und rechts jeweils ein vergrößerter Ausschnitt aus 5A bzw. 5C gezeigt.Several experiments are carried out to evaluate the translated results and the results are assessed both qualitatively and quantitatively. An example of augmentation and customization is in the 5A-C illustrated schematically. In order to visualize the effects brought about by the present adaptation approach, both the augmented and the translated image are shown in schematic form together with manually selected crops where these effects are characteristic. So illustrated 5A an adapted scene with inserted pedestrians 3 . 5C illustrates schematically (within the scope of the possibilities of a black and white line drawing) the result of the domain adaptation. In 5B is an enlarged section on the left and right 5A respectively. 5C shown.

Zunächst kann festgestellt werden, dass die hier vorgestellte Multi-Diskriminator-Architektur effektiv bei der Lösung des Problems der verschwindenden Objekte hilft, welches auf die Diskrepanz zwischen den Verteilungen der augmentierten Daten und der ursprünglichen Daten zurückgeht. Es zeigen sich keine semantischen Inkonsistenzen zwischen synthetischen und übersetzten Samples, und die eingefügten Objekte bleiben an ihrem Platz. Eine weitere Eigenschaft der übersetzten Bilder, die beachtet werden sollte, ist das tatsächliche Erscheinungsbild der gerenderten Objekte. In den übersetzten Bildern folgen die gerenderten Objekte dem Farbschema des gesamten Zieldatensatzes (in der Schwarz-Weiß-Darstellung der 5A-C ist dies nicht erkennbar). Schließlich wurden Beleuchtungseffekte, die aus den Szenen erlernt wurden, als Features in die übertragenen Bilder eingefügt. Dies ist anhand der vergrößerten Ausschnitte erkennbar, welche eingefügte Lichtflecken und geglättete Kanten aufweisen. Es ist beispielsweise anhand eines durch die Domänenanpassung eingefügten Lichtflecks auf Schulter und Brust des Fußgängers 3 erkennbar, dass das Erscheinungsbild der Fußgänger an die Szene angepasst wurde und dadurch im Ergebnis realistischer wirkt. In den lediglich schematischen Strichzeichnungen gemäß 5B-C sind Lichtflecken aus Darstellungsgründen (abweichend von dem tatsächlichen Bild, das bei diesem Experiment erhalten wurde) dunkler als die jeweilige Umgebung gezeichnet.First of all, it can be stated that the multi-discriminator architecture presented here effectively helps in solving the problem of vanishing objects, which is due to the discrepancy between the distributions of the augmented data and the original data. There are no semantic inconsistencies between synthetic and translated samples, and the inserted objects remain in place. Another characteristic of the translated images that should be considered is the actual appearance of the objects being rendered. In the translated images, the rendered objects follow the color scheme of the entire target data set (in the black and white representation of the 5A-C this is not recognizable). Finally, lighting effects learned from the scenes were added as features to the transmitted images. This can be seen from the enlarged sections, which have inserted light spots and smoothed edges. It is, for example, based on a light spot inserted by the domain adaptation on the shoulder and chest of the pedestrian 3 It can be seen that the appearance of the pedestrians has been adapted to the scene and thus appears more realistic as a result. In the merely schematic line drawings according to 5B-C light spots are drawn darker than the respective surroundings for reasons of illustration (deviating from the actual image obtained in this experiment).

Um eine qualitative Evaluation der Ergebnisse durchzuführen, werden die erzeugten Daten mit Bezug auf zwei Computer-Vision-Aufgaben bewertet: Semantische Segmentierung und Instanzsegmentierung. Semantische Segmentierung prädiziert für jeden Pixel, welcher semantischen Klasse er angehört, z.B. Fußgänger oder Fahrzeug. Wenn jedoch noch einzelne Instanzen innerhalb einer Klasse unterschieden werden so spricht man von Instanzsegmentierung.In order to carry out a qualitative evaluation of the results, the data generated are assessed with reference to two computer vision tasks: semantic segmentation and instance segmentation. Semantic segmentation predicts for each pixel which semantic class it belongs to, e.g. pedestrian or vehicle. If, however, individual instances are still differentiated within a class, one speaks of instance segmentation.

Zum Zweck der Evaluation wurden vorliegend state-of-the-art Computer-Vision-Algorithmen wie z.B. Deeplabv3 (vgl. Ref. [8]) und Mask-RCNN (vgl. Ref. [18]) verwendet.For the purpose of the evaluation, state-of-the-art computer vision algorithms such as Deeplabv3 (see Ref. [8]) and Mask-RCNN (see Ref. [18]) were used.

B. InstanzsegmentierungB. Instance segmentation

Die Transferqualität hinsichtlich der Instanzsegmentierung wird mittels der Standard-Metrik COCO average precision(AP) evaluiert. Dabei wird eines der leistungsfähigsten Detektionsmodelle, genannt Mask-RCNN (vgl. Ref. [18]) eingesetzt, welches auf einem COCO-Datensatz vortrainiert wird und auf dem Datensatz augmented cityscapes feinabgestimmt (fine-tuned) wird. Die Evaluation wird sodann anhand von 500 Bildern aus Cityscapes val ausgeführt. Wir folgen der Versuchsanordnung aus der Originalarbeit Ref. [18] und geben die Ergebnisse der Instanzsegmentierung in Tabelle I an. Tabelle I: Ergebnisse der Instanzsegmentierung für Mask-RCNN, das auf Cityscapes (oben) und einem erfindungsgemäß erzeugten Datensatz (unten) trainiert wurde. Methode AP_avg AP50_avg AP_person AP50_person CS 31,8 59,0 33,0 67,7 Erfindung 32,6 60,4 35,6 74,2 The transfer quality with regard to instance segmentation is evaluated using the standard metric COCO average precision (AP). One of the most powerful detection models, called Mask-RCNN (see Ref. [18]), is used, which is pre-trained on a COCO data set and fine-tuned on the augmented cityscapes data set. The evaluation is then carried out on the basis of 500 images from Cityscapes val. We follow the experimental set-up from the original work Ref. [18] and give the results of the instance segmentation in Table I. Table I: Results of the instance segmentation for Mask-RCNN, which was trained on cityscapes (above) and a data set generated according to the invention (below). method AP _avg AP50 _avg AP _person AP50 _person CS 31.8 59.0 33.0 67.7 invention 32.6 60.4 35.6 74.2

C. Semantische SegmentierungC. Semantic segmentation

Die Effektivität der generierten Daten für die semantische Segmentierungsaufgabe wurde mittels des Deeplabv3-Modells beurteilt. Ähnlich zum vorangegangenen Experiment zur Instanzsegmentierung wird die Baseline-Methode sowohl auf Cityscapes(train) als auch auf dem generierten Datensatz trainiert. In beiden Fällen werden die Bilder in einem Vorbearbeitungsschritt auf 1024 × 512 Pixel heruntergesampelt. Die Evaluation erfolgt auf Cityscapes(val) .The effectiveness of the generated data for the semantic segmentation task was assessed using the Deeplabv3 model. Similar to the previous experiment on instance segmentation, the baseline method is trained both on cityscapes (train) and on the generated data set. In both cases, the images are sampled down to 1024 × 512 pixels in a preprocessing step. The evaluation takes place on Cityscapes (val).

Deeplabv3 (vgl. Ref. [8]) verwendet xception65 als Rückgrat (backbone). Es wurde für 90K Wiederholungen mit Batch 16 auf 513 × 512 zufälligen Crops trainiert. Die Lernrate verblieb in diesem Fall bei 0,007. Für die besten Schnappschüsse ist die meanloU-Metrik in Tabelle II angegeben. Tabelle II: meanloU-Werte für die Prädiktion der semantischen Segmentierung durch Deeplabv3, das auf Cityscape und dem erfindungsgemäß erzeugten Datensatz trainiert wurde Methode Genauigkeit meanloU Person CS 95,6 75,6 77,1 Erfindung 95,3 75,3 77,3 Deeplabv3 (see Ref. [8]) uses xception65 as the backbone. It was trained for 90K reps with batch 16 on 513 × 512 random crops. The learning rate in this case remained at 0.007. For the best snapshots, the meanloU metric is given in Table II. Table II: meanloU values for the prediction of the semantic segmentation by Deeplabv3, which was trained on Cityscape and the data set generated according to the invention method accuracy meanloU person CS 95.6 75.6 77.1 invention 95.3 75.3 77.3

In beiden Evaluationsexperimenten zeigen die generierten Daten eine ähnliche Performance mit Blick auf Gesamtmetriken wie meanloU und AP_avg, aber sie zeigen eine leichte Verbesserung für die hier interessierende Klasse - Fußgänger. Die Verbesserung für AP_pedestrian in Mask-RCNN-Experimenten beträgt mehr als 2,5 %. Für Deeplab ist die Verbesserung auf der Fußgängerklasse eher moderat (weniger als 0,5 %). Zugleich zeigen die Pixelgenauigkeit und die meanloU-Metrik über alle 19 Klassen hinweg fast keine Leistungsverminderung (0,3 %). _{In both evaluation experiments} , the generated data show a similar performance with regard to overall metrics such as meanloU and AP avg, but they show a slight improvement for the class of interest here - pedestrians. The improvement for AP _pedestrian in Mask-RCNN experiments is more than 2.5%. For Deeplab, the improvement in the pedestrian class is rather moderate (less than 0.5%). At the same time, the pixel accuracy and the meanloU metric show almost no reduction in performance (0.3%) across all 19 classes.

Es wurde als ein Ausführungsbeispiel eine Pipeline zur Datenerzeugung präsentiert, welche einen Fußgänger-Augmentations-Teil und einen Datensatz-Erscheinungsbild-Lern-Teil, der auf einer neuartigen klassenspezifischen Multi-Diskriminator-Architektur basiert, umfasst. In Experimenten wurde gezeigt, dass die vorgeschlagene Pipeline semantisch und geometrisch konsistente Trainingsbilder mit einer Zieldatensatz-Optik erzeugen kann, was dabei hilft, die Domain Gap zwischen augmentierten und realen Daten zu überbrücken.As an exemplary embodiment, a pipeline for data generation was presented, which comprises a pedestrian augmentation part and a data record appearance learning part, which is based on a novel class-specific multi-discriminator architecture. Experiments have shown that the proposed pipeline can generate semantically and geometrically consistent training images with target data set optics, which helps to bridge the domain gap between augmented and real data.

Das vorgestellte Ausführungsbeispiel befasst sich insbesondere mit der Fußgängererkennung und gibt eine Pipeline für die Augmentation an, die es erlaubt, einen realen Datensatz, wie z.B. Cityscapes (vgl. Ref. [11]), mit virtuellen Fußgängern in verschiedenen Szenarien zu erweitern. Diese Pipeline ermöglicht ein geometrisch korrektes Inpainting von Fußgänger-CAD-Modellen in Cityscapes-Szenen. Die Augmentation berücksichtigt für sich genommen jedoch noch nicht Beleuchtungsbedingungen der jeweiligen Datensatz-Szene. Daher wird als ein zweiter Beitrag der Erfindung ein Domänenanpassungsmodell (Englisch: domain adaptation model) bereitgestellt welches auf einem gegnerischen Netzwerk basiert ist und es ermöglicht, Erscheinungsbilder zu erlernen und das CAD-Modell realistischer zu machen.The exemplary embodiment presented deals in particular with pedestrian detection and specifies a pipeline for augmentation that allows a real data set, such as cityscapes (see Ref. [11]), to be expanded with virtual pedestrians in various scenarios. This pipeline enables geometrically correct inpainting of pedestrian CAD models in Cityscapes scenes. However, the augmentation in and of itself does not yet take into account the lighting conditions of the respective data set scene. Therefore, as a second contribution of the invention, a domain adaptation model is provided which is based on an opposing network and makes it possible to learn appearances and to make the CAD model more realistic.

Durch einen Maskierungsansatz ist das vorgeschlagene Modell robust gegenüber Verteilungsdiskrepanzen zwischen den realen und synthetischen Datensätzen, und es ist in der Lage, konsistente Bilder mit realistischen Beleuchtungsbedingungen und einem zu dem Ursprungsdatensatz passenden Erscheinungsbild zu produzieren.Using a masking approach, the proposed model is robust against distribution discrepancies between the real and synthetic data sets, and it is able to produce consistent images with realistic lighting conditions and an appearance that matches the original data set.

Das vorgeschlagene Verfahren erlaubt es, diverse Szenarien mit VRUs zu simulieren, ohne eine relevante Diskrepanz zwischen Simulation und Wirklichkeit („simulation-to-real gap“) einzuführen.The proposed method makes it possible to simulate various scenarios with VRUs without introducing a relevant discrepancy between simulation and reality (“simulation-to-real gap”).

Referenzencredentials

[1] Geometry Image Synthesis, 2018 .
[2] Hassan Abu Alhaija, Siva Karthik Mustikovela, Lars Mescheder, Andreas Geiger and Carsten Rother. Augmented reality meets deep learning for car instance segmentation in urban scenes. In the British Machine Vision Conference (BMVC), 2017 .
[3] Mathieu Aubry, Daniel Maturana, Alexei A. Efros, Bryan C. Russell and Josef Sivic. Seeing 3d chairs: Exemplar part-based 2d-3d alignment using a large dataset of cad models. 2014 IEEE Conference on Computer Vision and Pattern Recognition, pages 3762-3769, 2014 .
[4] John L. Barron, David J. Fleet, Steven S. Beauchemin, and TA Burkitt. Performance of optical flow techniques. Proceedings 1992 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 236-242, 1992 .
[5] Alberto Broggi, Alessandra Fascioli, Paolo Grisleri, Thorsten Graf and Marc-Michael Meinecke. Model-based validation approaches and matching techniques for automotive vision based pedestrian detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) - Workshops, pages 1-1, 2005 .
[6] Gabriel J. Brostow, Julien Fauqueur and Roberto Cipolla. Semantic object classes in video: A high-definition ground truth database. Pattern Recognition Letters, 30: 88-97, 2009 .
[7] Chenyi Chen, Ari Seff, Alain L. Kornhauser, and Jianxiong Xiao. Deepdriving: Learning affordance for direct perception in autonomous driving. CoRR, abs / 1505.00256, 2015 .
[8th] Liang-Chieh Chen, George Papandreou, Florian Schroff and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs / 1706.05587, 2017 .
[9] Wenzheng Chen, Huan Wang, Yangyan Li, Hao Su, Changhe Tu, Dani Lischinski, Daniel Cohen-Or and Baoquan Chen. Synthesizing training images for boosting human 3d pose estimation. 2016 Fourth International Conference on 3D Vision (3DV), pages 479-488, 2016 .
[10] Ernest Cheung, Anson Wong, Aniket Bera, and Dinesh Manocha. Mixedpeds: Pedestrian detection in unannotated videos using synthetically generated human-agents for training. In AAAI, 2017 .
[11] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. CoRR, abs / 1604.01685, 2016 .
[12] Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio López and Vladlen Koltun. CARLA: an open urban driving simulator. CoRR, abs / 1711.03938, 2017 .
[13] Aysegul Dundar, Ming-Yu Liu, Ting-Chun Wang, John Zedlewski and Jan Kautz. Domain stylization: A strong, simple baseline for synthetic to real image domain adaptation. ArXiv, abs / 1807.09384, 2018 .
[14] Adrien Gaidon, Qiao Wang, Yohann Cabon and Eleonora Vig. Virtualworlds as proxy for multi-object tracking analysis. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4340-4349, 2016 .
[15] Andreas Geiger, Philip Lenz and Raquel Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Conference on Computer Vision and Pattern Recognition (CVPR), 2012 .
[16] lan Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville and Yoshua Bengio. Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, ND Lawrence and KQ Weinberger, editors, Advances in Neural Information Processing Systems 27, pp. 2672-2680. Curran Associates, Inc., 2014 .
[17] H. Hattori, VN Boddeti, K. Kitani, and T. Kanade. Learning scene-specific pedestrian detectors without real data. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3819-3827, June 2015 .
[18] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross B. Girshick. Mask r-cnn. 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2980-2988, 2017 .
[19] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A. Efros and Trevor Darrell. Cycada: Cycle consistent adversarial domain adaptation. CoRR, abs / 1711.03213, 2017 .
[20] Shiyu Huang and Deva Ramanan. Expecting the unexpected: Training detectors for unusual pedestrians with adverse imposters. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4664-4673, 2017 .
[21] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Imageto-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967-5976, 2016 .
[22] Abhijit Kundu, Vibhav Vineet and Vladlen Koltun. Feature space optimization for semantic video segmentation. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3168- 3175, 2016 .
[23] Donghoon Lee, Sifei Liu, Jinwei Gu, Ming-Yu Liu, Ming-Hsuan Yang and Jan Kautz. Context-aware synthesis and placement of object instances. In NeurIPS, 2018 .
[24] Joerg Liebelt, Cordelia Schmid and Klaus Schertier. Viewpoint-independent object class detection using 3d feature maps, 2008 .
[25] Ming-Yu Liu, Thomas Breuel and Jan Kautz. Unsupervised image-to-image translation networks. In I. Guyon, UV Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 700-708. Curran Associates, Inc., 2017 .
[26] J. Marin, AM Lopez, D. Geronimo, and D. Vazquez. Learning appearance in virtual scenarios for pedestrian detection. In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), volume 00, pages 137-144, 06 2010 .
[27] Xiaojuan Qi, Qifeng Chen, Jiaya Jia and Vladlen Koltun. Semiparametric image synthesis. 2018 IEEE / CVF Conference on Computer Vision and Pattern Recognition, pages 8808-8816, 2018 .
[28] Stephan R Richter, Vibhav Vineet, Stefan Roth and Vladlen Koltun. Playing for data: Ground truth from computer games. In European Conference on Computer Vision, pages 102-118. Springer, 2016 .
[29] German Ros, Laura Sellart, Joanna Materzynska, David Vazquez and Antonio M. Lopez. The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016 .
[30] Jamie Shotton, Ross B. Girshick, Andrew W. Fitzgibbon, Toby Sharp, Mat Cook, Mark Finocchio, Richard Moore, Pushmeet Kohli, Antonio Criminisi, Alex Kipman and Andrew Blake. Efficient human pose estimation from single depth images. IEEE transactions on pattern analysis and machine intelligence, 35 12: 2821-40, 2013 .
[31] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang and Russell Webb. Learning from simulated and unsupervised images through adversarial training. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2242-2251, 2016 .
[32] Rui Shu, Hung H. Bui, Hirokazu Narui and Stefano Ermon. A DIRTT approach to unsupervised domain adaptation. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings, 2018 .
[33] Michael Stark, Michael Goesele and Bernt Schiele. Back to the future: Learning shape models from 3d cad data. In the Proceedings of the British Machine Vision Conference, pp. 106.1-106.11. BMVA Press, 2010. doi: 10.5244 / C.24.106 .
[34] Baochen Sun and Kate Saenko. From virtual to reality: Fast adaptation of virtual object detectors to real domains. In the Proceedings of the British Machine Vision Conference. BMVA Press, 2014 .
[35] Geoffrey R. Taylor, Andrew J. Chosak, and Paul C. Brewer. Ovvv: Using virtual worlds to design and evaluate surveillance systems. 2007 IEEE Conference on Computer Vision and Pattern Recognition, Pages 1-8, 2007 .
[36] Gül Varol, Javier Romero, Xavier Martin, Naureen Mahmood, Michael J. Black, Ivan Laptev and Cordelia Schmid. Learning from synthetic humans. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4627-4635, 2017 .
[37] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. 2018 IEEE / CVF Conference on Computer Vision and Pattern Recognition, pages 8798-8807, 2017 .
[38] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017 IEEE International Conference on Computer Vision (ICCV), pages 2242-2251, 2017 .

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturNon-patent literature cited

Geometry Image Synthesis, 2018 [0105]
Hassan Abu Alhaija, Siva Karthik Mustikovela, Lars Mescheder, Andreas Geiger and Carsten Rother. Augmented reality meets deep learning for car instance segmentation in urban scenes. In British Machine Vision Conference (BMVC), 2017 [0105]
Mathieu Aubry, Daniel Maturana, Alexei A. Efros, Bryan C. Russell and Josef Sivic. Seeing 3d chairs: Exemplar part-based 2d-3d alignment using a large dataset of cad models. 2014 IEEE Conference on Computer Vision and Pattern Recognition, pages 3762-3769, 2014 [0105]
John L. Barron, David J. Fleet, Steven S. Beauchemin, and T. A. Burkitt. Performance of optical flow techniques. Proceedings 1992 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 236-242, 1992 [0105]
Alberto Broggi, Alessandra Fascioli, Paolo Grisleri, Thorsten Graf and Marc-Michael Meinecke. Model-based validation approaches and matching techniques for automotive vision based pedestrian detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) - Workshops, pages 1-1, 2005 [0105]
Gabriel J. Brostow, Julien Fauqueur and Roberto Cipolla. Semantic object classes in video: A high-definition ground truth database. Pattern Recognition Letters, 30: 88-97, 2009 [0105]
Chenyi Chen, Ari Seff, Alain L. Kornhauser, and Jianxiong Xiao. Deepdriving: Learning affordance for direct perception in autonomous driving. CoRR, abs / 1505.00256, 2015 [0105]
Liang-Chieh Chen, George Papandreou, Florian Schroff and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs / 1706.05587, 2017 [0105]
Wenzheng Chen, Huan Wang, Yangyan Li, Hao Su, Changhe Tu, Dani Lischinski, Daniel Cohen-Or and Baoquan Chen. Synthesizing training images for boosting human 3d pose estimation. 2016 Fourth International Conference on 3D Vision (3DV), pages 479-488, 2016 [0105]
Ernest Cheung, Anson Wong, Aniket Bera, and Dinesh Manocha. Mixedpeds: Pedestrian detection in unannotated videos using synthetically generated human-agents for training. In AAAI, 2017 [0105]
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. CoRR, abs / 1604.01685, 2016 [0105]
Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio López and Vladlen Koltun. CARLA: an open urban driving simulator. CoRR, abs / 1711.03938, 2017 [0105]
Aysegul Dundar, Ming-Yu Liu, Ting-Chun Wang, John Zedlewski and Jan Kautz. Domain stylization: A strong, simple baseline for synthetic to real image domain adaptation. ArXiv, abs / 1807.09384, 2018 [0105]
Adrien Gaidon, Qiao Wang, Yohann Cabon and Eleonora Vig. Virtualworlds as proxy for multi-object tracking analysis. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4340-4349, 2016 [0105]
Andreas Geiger, Philip Lenz and Raquel Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Conference on Computer Vision and Pattern Recognition (CVPR), 2012 [0105]
lan Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville and Yoshua Bengio. Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N.D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pp. 2672-2680. Curran Associates, Inc., 2014 [0105]
H. Hattori, V. N. Boddeti, K. Kitani, and T. Kanade. Learning scene-specific pedestrian detectors without real data. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3819-3827, June 2015 [0105]
Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross B. Girshick. Mask r-cnn. 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980-2988, 2017 [0105]
Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A. Efros and Trevor Darrell. Cycada: Cycle consistent adversarial domain adaptation. CoRR, abs / 1711.03213, 2017 [0105]
Shiyu Huang and Deva Ramanan. Expecting the unexpected: Training detectors for unusual pedestrians with adverse imposters. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4664-4673, 2017 [0105]
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Imageto-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967-5976, 2016 [0105]
Abhijit Kundu, Vibhav Vineet and Vladlen Koltun. Feature space optimization for semantic video segmentation. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3168- 3175, 2016 [0105]
Donghoon Lee, Sifei Liu, Jinwei Gu, Ming-Yu Liu, Ming-Hsuan Yang and Jan Kautz. Context-aware synthesis and placement of object instances. In NeurIPS, 2018 [0105]
Joerg Liebelt, Cordelia Schmid and Klaus Schertier. Viewpoint-independent object class detection using 3d feature maps, 2008 [0105]
Ming-Yu Liu, Thomas Breuel and Jan Kautz. Unsupervised image-to-image translation networks. In I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 700-708. Curran Associates, Inc., 2017 [0105]
J. Marin, A. M. Lopez, D. Geronimo, and D. Vazquez. Learning appearance in virtual scenarios for pedestrian detection. In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), volume 00, pages 137-144, 06 2010 [0105]
Xiaojuan Qi, Qifeng Chen, Jiaya Jia and Vladlen Koltun. Semiparametric image synthesis. 2018 IEEE / CVF Conference on Computer Vision and Pattern Recognition, pages 8808-8816, 2018 [0105]
Stephan R Richter, Vibhav Vineet, Stefan Roth and Vladlen Koltun. Playing for data: Ground truth from computer games. In European Conference on Computer Vision, pages 102-118. Springer, 2016 [0105]
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez and Antonio M. Lopez. The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016 [0105]
Jamie Shotton, Ross B. Girshick, Andrew W. Fitzgibbon, Toby Sharp, Mat Cook, Mark Finocchio, Richard Moore, Pushmeet Kohli, Antonio Criminisi, Alex Kipman and Andrew Blake. Efficient human pose estimation from single depth images. IEEE transactions on pattern analysis and machine intelligence, 35 12: 2821-40, 2013 [0105]
Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang and Russell Webb. Learning from simulated and unsupervised images through adversarial training. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2242-2251, 2016 [0105]
Rui Shu, Hung H. Bui, Hirokazu Narui and Stefano Ermon. A DIRTT approach to unsupervised domain adaptation. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings, 2018 [0105]
Michael Stark, Michael Goesele and Bernt Schiele. Back to the future: Learning shape models from 3d cad data. In the Proceedings of the British Machine Vision Conference, pp. 106.1-106.11. BMVA Press, 2010. doi: 10.5244 / C.24.106 [0105]
Baochen Sun and Kate Saenko. From virtual to reality: Fast adaptation of virtual object detectors to real domains. In the Proceedings of the British Machine Vision Conference. BMVA Press, 2014 [0105]
Geoffrey R. Taylor, Andrew J. Chosak, and Paul C. Brewer. Ovvv: Using virtual worlds to design and evaluate surveillance systems. 2007 IEEE Conference on Computer Vision and Pattern Recognition, Pages 1-8, 2007 [0105]
Gül Varol, Javier Romero, Xavier Martin, Naureen Mahmood, Michael J. Black, Ivan Laptev and Cordelia Schmid. Learning from synthetic humans. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4627-4635, 2017 [0105]
Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. 2018 IEEE / CVF Conference on Computer Vision and Pattern Recognition, pages 8798-8807, 2017 [0105]
Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017 IEEE International Conference on Computer Vision (ICCV), pages 2242-2251, 2017 [0105]

Claims

Computer-implemented method for data augmentation, comprising the steps of: - providing (21) scene image data which represent a first scene, the scene image data including spatial depth information; - providing (22) object image data which represent at least one object (3); - Generating (23), as a function of the scene image data, an insertion map which indicates suitable positions at which an object can be inserted into the first scene; - Using the insertion map, selecting (24) a suitable position for inserting the at least one provided object (3) into the first scene; - Mixing (25) the scene image data and the object image data and thereby generating augmented scene image data which represent a second scene, the second scene including the first scene together with the at least one object (3) inserted at the selected position.

Procedure according to Claim 1 , the scene image data being based on a recording of the scene by means of a stereo camera and / or a LIDAR system.

Method according to one of the preceding claims, wherein the scene image data is present in at least one processing step in the form of a disparity map.

Method according to one of the preceding claims, wherein the scene image data are present in at least one processing step in the form of a depth map.

Method according to one of the preceding claims, wherein the scene image data are present in at least one processing step in the form of a point cloud.

Method according to one of the preceding claims, wherein the insertion map represents a ground plane (4) of the first scene, wherein the ground plane (4) in particular comprises road surface (s) and / or sidewalk (s) present in the first scene.

Method according to one of the preceding claims, further comprising an adaptation step (26) in which an appearance of the at least one inserted object (3) in the second scene is changed by means of a GAN method.

Procedure according to Claim 7 , with a generator (gene) generating changed image data on the basis of the augmented scene image data as part of the GAN method.

Procedure according to Claim 8 In the context of the GAN method, a multi-discriminator is used which comprises at least two partial discriminators (Dis _road , Dis _ped , Dis _veg ), and each of the partial discriminators (Dis _road , Dis _ped , Dis _veg ) has a sub-area assigned to it evaluated by several disjoint sub-areas of a frame generated by the generator (gene).

Procedure according to Claim 9 , the disjoint sub-areas being assigned to a respective semantic class.

Procedure according to Claim 9 or 10 , wherein at least one of the partial discriminators (Dis _road , Dis _ped , Dis _veg ) is designed as a folding neural network which comprises at least one class-specific masking layer (M ^c ).

Procedure according to Claim 11 , wherein at least one partial discriminator (Dis _road , Dis _ped , Dis _veg ^{) comprises several folding layers, and wherein a sampled version of the original masking layer (M c} ) is used before at least one subsequent folding layer, in particular before each subsequent folding layer.

Computing device, wherein the computing device is designed to carry out a method according to one of the preceding claims.

Computer program, comprising instructions which cause the computer program to be executed by a computing device, a method according to one of the Claims 1 until 12th to execute.

Computer-readable (storage) medium, comprising instructions which, when executed by a computing device, cause them, a method according to one of the Claims 1 until 12th to execute.