EP3785169A1 - Method and device for converting an input image of a first domain into an output image of a second domain - Google Patents

Method and device for converting an input image of a first domain into an output image of a second domain

Info

Publication number
EP3785169A1
EP3785169A1 EP19721223.6A EP19721223A EP3785169A1 EP 3785169 A1 EP3785169 A1 EP 3785169A1 EP 19721223 A EP19721223 A EP 19721223A EP 3785169 A1 EP3785169 A1 EP 3785169A1
Authority
EP
European Patent Office
Prior art keywords
network
images
training
image
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP19721223.6A
Other languages
German (de)
French (fr)
Inventor
Andrej Junginger
Markus Hanselmann
Thilo Strauss
Holger Ulmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of EP3785169A1 publication Critical patent/EP3785169A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the invention relates to methods for training a neural network for converting an input image of a first domain or in a first display style into an output image of a second domain or in a second display style.
  • Motor vehicles are often equipped with camera systems that capture image information about a vehicle environment, in particular an image of a vehicle environment ahead in the direction of travel. This image information is used to perform driver assistance functions to assist the driver and autonomous driving functions. Examples of such driver assistance functions may include a recognition system for traffic signs or a brake assist, which recognizes, for example, that a pedestrian is in a collision area in front of the motor vehicle or moves into it.
  • driver assistance functions may include a recognition system for traffic signs or a brake assist, which recognizes, for example, that a pedestrian is in a collision area in front of the motor vehicle or moves into it.
  • image data usually contain no meta information, the z. B. image segmentation information, ie, indicate which pixel regions of the image data to a pedestrian, to a surrounding area, to a street area, to a building area and the like. Often, such image information must be manually created, which is a costly and, above all, time-consuming process.
  • a disadvantage of the methods described above is that a so-called cycle consistency must be calculated during training, whereby in training the input image data must be explicitly calculated into the output image data and vice versa, which makes the training very computationally intensive and thus time consuming.
  • a method for training a neural network for converting an input image of a first domain into an output image of a second domain according to claim 1 and a corresponding device according to the independent claim are provided. Further embodiments are specified in the dependent claims.
  • a method of training a first neural network to convert an input image of a first domain to an output image of a second domain wherein the training is performed on first domain input images provided for the training and second domain training images; with the following steps:
  • Training the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined;
  • Training the generator network based on an input image provided for training and a generator error value that depends on a quality of the output image provided by the generator network responsive to the input image and a similarity size between the input image and the output image that indicates a measure of structural similarity.
  • the aim of the above method is to train a neural network so that a given input image is converted into an output image.
  • the input and output images should have different styles, ie the input image data should be available in a first domain and the output image data in a second domain.
  • the styles correspond to display styles, such as a segmentation representation in which, for example, different color areas are assigned to different objects or image areas, a photorealistic image, a comic image, a line drawing, a watercolor sketch, and the like.
  • These images are intended to replace camera images and to be as indistinguishable as possible from them.
  • These images may also optionally be provided with meta information including, for example, segmentation information that associates image areas of the photorealistic image with particular objects or backgrounds.
  • meta information including, for example, segmentation information that associates image areas of the photorealistic image with particular objects or backgrounds.
  • an input image indicating only image areas for particular objects and / or backgrounds such as image areas representing a person, a cyclist, a road area, a development area, a vegetation area, and the like, may be processed by the trained neural network such that corresponding image areas are provided with realistic structures of the corresponding objects.
  • the above method envisages using a GAN network (GAN: Generative Adversarial Network) in which a generator network corresponding to a first neural network is to be trained by means of a discriminator network which corresponds to a second neural network.
  • the generator network then generates output image data in a second domain from provided input image data in a first domain.
  • the discriminator network provides training for the generator network as relevant information Rating label for the output image generated by the generator network.
  • the discriminator network is trained to evaluate whether an image provided at its input is an image in a second domain.
  • the discriminator network is trained at the same time or in alternation with the generator network based on generator-generated output images and training images in a second domain, wherein the training images are assigned a rating label indicating a high degree of allocation to the second domain (ie, indicating that the images in question are the second domain).
  • the discriminator network is supplied with the output images generated by the generator network, together with a rating label indicating a low allocation level to the second domain (ie indicating that the respective second domain images were artificially generated by the generator network).
  • Generator network and discriminator network can be trained alternately, thereby iteratively improving both neural networks and finally learning the generator network to convert a provided input image in the first domain into an output image in the second domain.
  • loss functions or cost functions are used.
  • a generator function that includes two parts is used as the cost function.
  • a first part forces the generated output image to be assigned to the second domain.
  • the output image generated by the generator network is supplied to the discriminator network and the distance to the desired evaluation label (evaluation label for a training image of the second domain) is minimized.
  • the second part ensures that the image contents of the output image generated by the generator network correspond to the original image by minimizing a structural distance of the output image to the input image, i. H. the output image differs from the input image only by the style of presentation (domain) but only slightly by the image content or the scene shown.
  • the structural distance can be determined, for example, by a similarity value, which is a measure of the structural similarity of two images in different domains.
  • a similarity value which is a measure of the structural similarity of two images in different domains.
  • an SSIM index (SSIM: Structural Similarity Index), which indicates the structural similarity between the input image and the output image in a known manner, is suitable for this purpose.
  • the generator network is allowed to train an input image in the first domain or a first rendering style into an output image in a second domain, i. a second style of presentation, to transform.
  • the input images of the first presentation style and the training images of the second presentation style must be specified, wherein a similarity or identity of the representation of the input images and the training images is not necessary, d. H. it is not necessary to provide input images that differ from the training images only by the style of presentation.
  • a neural network (generator network) can be trained by the above method, which automatically and monitored from synthetic input images that show, for example, a traffic situation schematically or stylized, photorealistic output images of the corresponding traffic situation generated.
  • the output images can then be used to develop and / or test driver assistance functions or autonomous driving functions.
  • situations can be created that can not be tested in reality, such as: B. a running on the roadway person to test a brake assist system or to test an evasive behavior of an autonomous driving function.
  • the training method described above can achieve a significantly improved conversion of an input image of a first presentation style into a corresponding output image of a second presentation style, wherein the training method can be implemented in a simple manner and has high reliability and robustness. Also, the above training method results in better results, ie, an improved more precise conversion of the input image of the first presentation style into the output image of the second presentation style, than corresponding conventional methods. Furthermore, the training of the discriminator network and the generator network can be performed simultaneously or alternately repeatedly, in particular using a backpropagation method, until an abort condition is met.
  • the termination condition is fulfilled if a number of passes or a predetermined quality of the output images generated by the generator network is reached.
  • the quality of the one or more training images and / or the one or more output images may each be determined by the discriminator network and may correspond to a rating of the extent to which the image in question is an image of the second domain.
  • the discriminator error value may be a function of a deviation measure for the deviation between the respective quality of the one or more training images and a rating label indicating a training image as a real image of the second domain, and depending on a deviation measure for the deviation between the respective quality of the respective one output image or the respective plurality of output images and a rating label which indicates an output image generated by the generator network as a false image of the second domain, the deviation measure corresponding in particular to a mean squared error or a binary cross entropy.
  • the similarity quantity depends on or corresponds to an SSIM index for a structural similarity between one of the input images and an output image generated by the generator network from the relevant input image.
  • the first and / or the second neural network can be configured as a convolutional neural network (folding neural network), wherein in particular the first and / or the second neural network is a series connection of some convolutional layer blocks (Convolution blocks), some ResNet blocks, and some Deconvolutional blocks, each of which blocks may contain as an activation function a ReLU, leaky-ReLU, tanh, or sigmoid function.
  • Convolution blocks convolutional layer blocks
  • ResNet blocks some Deconvolutional blocks, each of which blocks may contain as an activation function a ReLU, leaky-ReLU, tanh, or sigmoid function.
  • the generator error value may depend on a deviation measure for the deviation between the respective quality of the output image provided by the generator network as a function of the input image and a rating label from the discriminator network indicating a second domain image, wherein the deviation measure is in particular a mean squared error or corresponds to a binary cross entropy.
  • the training of the discriminator network and / or the generator network can only be performed if a condition dependent on the current discriminator error value and / or on the generator error value is satisfied.
  • a method for providing a control for a technical system in particular for a robot, a vehicle, a tool or a factory machine, wherein the above method is carried out for training a first neural network, wherein the trained first neural network uses is going to workout images, ie Output images of the second domain, with which the controller, which in particular contains a neural network, is trained.
  • the technical system can be operated using the controller.
  • a use of a first neural network trained in accordance with the above method is for generating photorealistic seed images in a second domain dependent on predetermined input images in a first domain, which are created in particular via a script-based description
  • a GAN network is for training a first neural network to convert an input image of a first domain to an output image of a second domain, wherein the training is performed on first domain input images provided for training and second domain training images
  • the GAN network comprises a generator network comprising the first neural network and a discriminator network comprising a second neural network, the GAN network being adapted to
  • the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined;
  • Figures 1 a and 1 b exemplary representations of an image of a first
  • Figure 2 is a block diagram illustrating a system for training a GAN network to translate an input image of a first presentation style and an output image of a second presentation style; and FIG. 3 shows a flow chart for illustrating a method for training a neural network for converting an input image into an output image of a different presentation style.
  • a neural network is to be trained which is able to convert an input image into an output image.
  • the goal is that the input image in a first domain, i. H. in a first display style, and in an output image corresponding to the input image in a second domain, i. H. in a second of the first different style of presentation.
  • Presentation style herein refers to a representation of information contained in the corresponding image.
  • a segmentation image indicating segmentation of object and background areas of a photorealistic image, or other artificially generated (synthetic) image, such as a photorealistic image may be used.
  • a sketch as an input image represent a template from which a photorealistic image is generated as an output image, so that the input image and the output image correspond to different presentation styles.
  • Figures 1 a and 1 b show exemplary representations of a synthetic image or a photorealistic image corresponding to the synthetic image in sketch form and as realistic representations.
  • a possible application of such a trained neural network could be to convert a given input image in the form of a segmentation image, in which only segmentation ranges are given, into an artificially generated photorealistic output image.
  • Figure 1 as a real image and as a sketch image, for example, a Segment michstruck ( Figure 1 a) in which only areas are marked, for example, display areas for a carriageway area, a development area, a vegetation area of foreign vehicles, pedestrians, of Cyclists or other objects, in a corresponding photorealistic Image ( Figure 1 b) are converted.
  • Such a photorealistic image may then be used in a test or development environment for testing and / or creating driver assistance functions or autonomous driving functions.
  • FIG. 2 essentially shows a basic structure of a GAN network 1 with a generator network 2 comprising a first neural network and a discriminator network 3 comprising a second neural network.
  • the first and / or second neural network may in particular be designed as convolutional neural networks or other types of neural networks.
  • the first neural network of the generator network 2 Various architectures known per se are conceivable for the first neural network of the generator network 2.
  • a series connection of a few convolutional layer blocks (folding blocks), some ResNet blocks and a few deconvolutional blocks can be selected.
  • Each of these blocks may optionally include a batch or other type of normalization.
  • Each of the blocks may further contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
  • each of these blocks may contain a batch or other type of normalization.
  • each of the blocks may contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
  • the generator network 2 is designed to generate an output image A of a second presentation style based on an input image E of a first presentation style.
  • the input image E can be an image with one or more Be color channels, in particular three color channels, and the output image A a tensor same or different format. Alternatively, a random tensor may be added to the input image E to cause the output image A to have higher variability.
  • the generator network 2 is trained based on a provided generator error value GF, in particular using a backpropagation method.
  • the generator error value GF is generated in an evaluation block 4, on the one hand, the structural similarity S or dissimilarity of the input image E and of the generator network 2 based on a predetermined input image E generated output image A (image similarity (similarity of the image content or the scene) regardless of Domain or the presentation style) and on the other hand, the quality C of the output image A indicates.
  • the quality C of the output image A indicates the proximity of the presentation style of the output image A to the style of presentation of predetermined training images T.
  • the quality C of the output image A is determined by means of the discriminator network 3, to which the output image A produced is provided as input.
  • the quality C By taking into account the quality C during training of the generator network 3, it is achieved that the generated output image A assumes the second style of presentation.
  • the structural similarity S between the input image E and the output image A it is achieved that the images have the same image content.
  • the discriminator network 3 can be supplied with training images T, which are images of the second representation style and which are each provided with a rating label BT, which confirms the second presentation style of the training images.
  • the training images T may be provided with a rating label BT of 1, indicating that the training images T correspond to the second style of presentation.
  • the discriminator network 3 can also be provided with the output images A generated by the generator network 2, which are provided with a rating label B A of 0, indicating that the presentation style of these images is of the second style significantly different.
  • the Discriminator network 3 z. B. be trained using the Backpropagation method or other training method to determine the quality of C provided by the generator network 2 output images A.
  • the discriminator network 3 When training the discriminator network 3, this can with the help of a discriminator error DFK, such. As a mean squared error, binary cross entropy or other appropriate cost functions are trained. As a result, by influencing the generator error value, the discriminator network 3 obtains the capability that the generator network 2 generates not only output images A corresponding to the second display style, but simultaneously the output images A have the same image content as the input image E of the first presentation style supplied to the generator network 2.
  • a discriminator error DFK such.
  • a mean squared error binary cross entropy or other appropriate cost functions are trained.
  • the discriminator network 3 obtains the capability that the generator network 2 generates not only output images A corresponding to the second display style, but simultaneously the output images A have the same image content as the input image E of the first presentation style supplied to the generator network 2.
  • generator network 2 is trained with the generator error value GF by means of a backpropagation method or another training method, the generator error value GF being determined by the structural similarity between the input image E and the output image A generated by the generator network 2 and by the quality determined by the discriminator network 3 C of the generated by the generator network 2 output image A is determined.
  • a tensor B x is provided. This can be multidimensional or correspond to a real number.
  • the tensor B x corresponds to the evaluation label and can indicate 1 for the training images and 0 for the images generated by the generator network.
  • the rating labels thus correspond to Bi for a training image T and Bo for an output image A generated by the generator network.
  • the dimension of the evaluation label B is essentially freely selectable and depends on the selected network architecture.
  • the evaluation label B can also be provided with a different standardization, and in particular so-called soft evaluation labels B can be used, ie instead of the values 1 and 0 correspondingly slightly noisy values can be assumed, whereby the stability of the training can be improved depending on the application ,
  • the map of the discriminator network 3 corresponds to D 9d , where 0 D are the discriminator parameters (weights) of the neural network of the discriminator network to be optimized.
  • the mapping performed by the generator network 2 corresponds to Gg G, where 0 G are the generator parameters (weights) of the neural network of the generator network 2 to be optimized.
  • the discriminator error function for training the discriminator network 2 serves to determine the discriminator error value DF used in the parameter optimization training of the discriminator parameter 0D.
  • the loss function has several addend IDs.
  • the discriminator error function DFK used for this training of the discriminator network 3 must realize a deviation measure l D as far as C (T), C (A) and the corresponding evaluation label B A , B T differ from each other.
  • l D the deviation measure l D
  • MSE mean squared error
  • BCE binary cross entropy
  • a generator error function is used to generate a generator error value consisting of two parts, a first part corresponding to a deviation amount l G between the quality C of the output image A T based on an input image E T applied for training and a rating label B indicating complete achievement of the second display style, in particular a rating label BT, which is given training images T for the training of the discriminator network 3, preferably a rating label of 1.
  • MSE Mean Squared Error
  • BCE binary Cross Entropy
  • the second part of the generator error function corresponds to a similarity quantity S, which is determined in a similarity block 6 by means of a similarity evaluation function.
  • the similarity evaluation function calculates a measure of a structural similarity of the two images based on the input image ET of the first presentation style and the output image AT of the second presentation style respectively generated by the generator network 2.
  • a function may be provided as a similarity evaluation function which, with a high structural similarity, assumes a value close to 1 and with no structural similarity near -1.
  • Suitable as a similarity evaluation function is, for example, to select a so-called SSIM function which indicates an index of structural similarity or a MSSIM based thereon, such as Zhou Wang et al., Image Quality Assessment: From Error Visibility to Structural Similarity, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004, pages 600-612.
  • the training method for the first neural network of the generator network 2 is descriptive described, so that the trained generator network 2 can be used to change a display style of an input image E.
  • an initial parameterization of the first neural network with the Generator parameters 0G and the second neural network with the discriminator 0D is descriptive described, so that the trained generator network 2 can be used to change a display style of an input image E.
  • step S2 With the aid of the discriminator network 3, a quality is achieved in step S2
  • step S3 the similarity quantity S between the input image ET provided for training and the corresponding output image AT is calculated:
  • a generator error value GF for the generated output image A T is determined using the generator error function GFF in step S4.
  • a learning step for the first neural network of the generator network 2 is performed in step S5, in particular based on a backpropagation method.
  • the generator parameters 0 G are updated based on the partial derivatives dGF / d0 G.
  • steps S1 to S5 of the training of the generator network 2 can be repeated with the same or with another input image ET provided for training.
  • step S8 one or more last-generated output images Ai . m corresponding to a quality C (Ai ..m) is determined and from it in step S9, the dimensions or the deviation Z ß (Ai .. m) determined: D l (71) MSE ⁇ Dg 04), B a) and l D (71) BCE ⁇ Dg (71), B A )
  • a discriminator error value DF is determined, for example, according to the following formula:
  • a learning step for the second neural network of the discriminator network 3 may be performed in step S1 1.
  • Characterized the Diskriminatorparameter be updated 0 D in a back propagation method by using the corresponding partial derivatives dDF / dQ D.
  • the backpropagation method can also be carried out only based on a training image T and / or an output image A.
  • the discriminator network 3 not only generated images in the second display style but also other training images in the first presentation style of 0 (or near 0) may be used. This makes it easier for the discriminator, if necessary, to better learn the differences between the two domains.
  • step S12 an abort condition is checked. If the termination condition is not fulfilled (alternative: no), the method is continued with step S1, otherwise (alternative: yes) the method is continued with step S13.
  • An abort condition can be, for example, the achievement of a number of passes or the achievement of a predetermined discriminator error value DF and / or generator error value GF, or the achievement of a predetermined quality C (A) of the output images A generated by the generator network 2.
  • the step S13 now represents the generator network 2 as a system for converting an input image E of a first presentation style or a first domain into an output image A of a second presentation style or a second domain.
  • the discriminator parameters 0D and generator parameters 0G are only updated under certain conditions, e.g. B. depending on the current discriminator error value DF for training the discriminator network 3 and the generator error value GF for training the generator network 2.
  • the size of the batches for the training of the discriminator network 3 or the generator network 2 can be varied.
  • an input image deviation measure which adds a deviation of the quality C of the input image from a rating label B A for a fake image, ie an output image A generated by the generator network can still be additively added. This can increase the stability of the training.
  • the trained generator network 2 can then be used to select from input images E created via a script-based description, e.g. B. Traffic situations show input images E to produce a first presentation style. If the generator network 2 has been trained based on images of the first representation style and photorealistic images of traffic situations, the artificially generated input images E can be assigned photorealistic images that represent a corresponding traffic situation. As a result, the generator network 2 can be used to create any number of photorealistic images that represent desired traffic situations.
  • the generator network 2 can also be trained in a reverse manner to convert photorealistic images into synthetic images, for example to remove reflections or the like from the photorealistic images, for example when a classifier can better classify synthetic images than photorealistic images.
  • the above system may also be trained to create segmented images from photorealistic images, in which case the photorealistic images correspond to the first style of presentation and the segmented images to the images of the second style of presentation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a method for training a first neural network for converting an input image (E) of a first domain into an output image (A) of a second domain, wherein the training is carried out on training images (T) of the second domain and input images (E) of the first domain provided for the training, comprising the following steps: providing a GAN network with a generator network (2) having the first neural network and a discriminator network (3) having a second neural network; training the discriminator network (3) based on a discriminator error value (DF) and one or more training images (T) and/or one or more output images (A), which are generated by processing one or more of the input images via the generator network (2), wherein the discriminator error value (DF) is determined depending on a respective quality (C) of the one or more training images (T) and/or the one or more output images; training the generator network (2) based on an input image (E) provided for the training and a generator error value (GF) which depends upon a quality (C) of the output image (A), provided by the generator network (2) depending on the input image (E), and upon a degree of similarity (S) between the input image (E) and the output image (A), which indicates a degree of structural similarity.

Description

Beschreibung  description
Titel title
Verfahren und Vorrichtung zur Umsetzung eines Einqanqsbildes einer ersten Method and device for implementing a single image of a first
Domäne in ein Ausgangsbild einer zweiten Domäne Domain into an output image of a second domain
Technisches Gebiet Technical area
Die Erfindung betrifft Verfahren zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes einer ersten Domäne bzw. in einem ersten Darstellungsstil in ein Ausgangsbild einer zweiten Domäne bzw. in einem zweiten Darstellungsstil. The invention relates to methods for training a neural network for converting an input image of a first domain or in a first display style into an output image of a second domain or in a second display style.
Technischer Hintergrund Technical background
Kraftfahrzeuge sind häufig mit Kamerasystemen ausgestattet, die eine Bildinformation über eine Fahrzeugumgebung, insbesondere ein Bild einer in Fahrtrichtung vorausliegenden Fahrzeugumgebung, erfassen. Diese Bildinformation wird zur Durchführung von Fahrerassistenzfunktionen zur Unterstützung des Fahrers und von autonomen Fahrfunktionen verwendet. Beispiele für solche Fahrerassistenzfunktionen können ein Erkennungssystem für Verkehrsschilder oder einen Bremsassistenten umfassen, der beispielsweise erkennt, dass sich ein Fußgänger in einem Kollisionsbereich vor dem Kraftfahrzeug befindet oder sich in diesen hineinbewegt. Motor vehicles are often equipped with camera systems that capture image information about a vehicle environment, in particular an image of a vehicle environment ahead in the direction of travel. This image information is used to perform driver assistance functions to assist the driver and autonomous driving functions. Examples of such driver assistance functions may include a recognition system for traffic signs or a brake assist, which recognizes, for example, that a pedestrian is in a collision area in front of the motor vehicle or moves into it.
Ein Problem bei der Entwicklung derartigen Funktionen besteht darin, dass nur unzureichend Bilddaten vorhanden sind, an denen diese Funktionen getestet bzw. trainiert werden können. Insbesondere ist es mühsam, Bilddaten für kritische Situationen zur Verfügung zu stellen. Weiterhin beinhalten bereitgestellte Bilddaten in der Regel keine Metainformationen, die z. B. Bildsegmentierungsinformation aufweisen, d. h. die angeben, welche Pixelregionen der Bilddaten zu einem Fußgänger, zu einem Umgebungsbereich, zu einem Straßenbereich, zu einem Gebäudebereich und dergleichen gehören. Oftmals müssen derartige Bildinformationen manuell erstellt werden, was ein kostspieliger und vor allem zeitaufwendiger Prozess ist. One problem with the development of such functions is that there is insufficient image data at which these functions can be tested. In particular, it is troublesome to provide image data for critical situations. Furthermore, provided image data usually contain no meta information, the z. B. image segmentation information, ie, indicate which pixel regions of the image data to a pedestrian, to a surrounding area, to a street area, to a building area and the like. Often, such image information must be manually created, which is a costly and, above all, time-consuming process.
Bekannte Ansätze, Bilddaten für mögliche Verkehrssituationen als künstliches Kamerabild künstlich zu erzeugen, bestehen darin, gewünschte Verkehrssituationen per Skript, d. h. mit einer Formalsprache zu beschreiben und mit einer Graphik-Engine zu visualisieren. Die so ermittelten Bilder bzw. Bilddaten stellen die Verkehrssituationen jedoch künstlich und nicht photorealistisch dar, was für das Entwickeln und Testen von Fahrerassistenzfunktionen und autonomen Fahrfunktionen unter realistischen Bedingungen ungeeignet ist. Known approaches to artificially generate image data for possible traffic situations as an artificial camera image, are desired traffic situations by script, d. H. to describe with a formal language and to visualize it with a graphic engine. However, the images or image data thus determined represent the traffic situations artificially and not photorealistically, which is unsuitable for the development and testing of driver assistance functions and autonomous driving functions under realistic conditions.
Weitere Verfahren sind aus dem Stand der Technik bekannt, die einen Stiltransfer von einem Eingangsbild zu einem Ausgangsbild vorschlagen. Während einfache Ansätze zum Training eines solchen Systems einander zugeordnete Bilddaten des Eingangsbilds und des Ausgangsbilds verwenden, die beide denselben Bildinhalt aufzeigen und nur im Stil (mit ihrer Domäne) voneinander abweichen, können fortgeschrittene Verfahren Eingangs- und Ausgangsbilddaten der entsprechenden Stile verwenden, die keinen Bezug zueinander aufweisen müssen. Other methods are known in the art which suggest a style transfer from an input image to an output image. While simple approaches to training such a system use associated image data of the input image and the output image, both of which display the same image content and differ only in style (with their domain), advanced methods may use input and output image data of the corresponding styles that have no reference must have to each other.
Ein Nachteil der oben beschriebenen Verfahren besteht darin, dass während des Trainings eine sogenannte Cycle Consistency berechnet werden muss, wodurch im Training explizit die Eingangsbilddaten in die Ausgangsbilddaten und umgekehrt berechnet werden müssen, was das Training sehr rechenintensiv und damit zeitaufwendig macht. A disadvantage of the methods described above is that a so-called cycle consistency must be calculated during training, whereby in training the input image data must be explicitly calculated into the output image data and vice versa, which makes the training very computationally intensive and thus time consuming.
Offenbarung der Erfindung Disclosure of the invention
Erfindungsgemäß sind ein Verfahren zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne gemäß Anspruch 1 sowie eine entsprechende Vorrichtung gemäß dem nebengeordneten Anspruch vorgesehen. Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben. According to the invention, a method for training a neural network for converting an input image of a first domain into an output image of a second domain according to claim 1 and a corresponding device according to the independent claim are provided. Further embodiments are specified in the dependent claims.
Gemäß einem ersten Aspekt ist ein Verfahren zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne vorgesehen, wobei das Training auf für das Training bereitgestellten Eingangsbildern der ersten Domäne und Trainingsbildern der zweiten Domäne durch geführt wird; mit folgenden Schritten: According to a first aspect, there is provided a method of training a first neural network to convert an input image of a first domain to an output image of a second domain, wherein the training is performed on first domain input images provided for the training and second domain training images; with the following steps:
Bereitstellen eines GAN-Netzwerks mit einem Generatornetzwerk, das das erste neuronale Netz umfasst, und einem Diskriminatornetzwerk, das ein zweites neuronales Netz umfasst;  Providing a GAN network with a generator network comprising the first neural network and a discriminator network comprising a second neural network;
Trainieren des Diskriminatornetzwerks basierend auf einem Diskriminatorfehlerwert und einem oder mehreren Trainingsbildern und/oder einem oder mehreren Ausgangsbildern, die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk erzeugt werden, wobei der Diskriminatorfehlerwert abhängig von einer jeweiligen Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird;  Training the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined;
Trainieren des Generatornetzwerks basierend auf einem für das Training bereitgestellten Eingangsbild und einem Generatorfehlerwert, der von einer Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einer Ähnlichkeitsgröße zwischen dem Eingangsbild und dem Ausgangsbild abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.  Training the generator network based on an input image provided for training and a generator error value that depends on a quality of the output image provided by the generator network responsive to the input image and a similarity size between the input image and the output image that indicates a measure of structural similarity.
Ziel des obigen Verfahrens ist es, ein neuronales Netz so zu trainieren, dass ein vorgegebenes Eingangsbild in ein Ausgangsbild umgewandelt wird. Dabei sollen Eingangs- und Ausgangsbild unterschiedliche Stile aufweisen, d. h. die Eingangsbilddaten sollen in einer ersten Domäne und die Ausgangsbilddaten in einer zweiten Domäne zur Verfügung stehen. Die Stile entsprechen Darstellungsstilen, wie z.B. eine Segmentierungsdarstellung, in der z.B. farblich unterschiedliche Bereiche unterschiedlichen Objekten oder Bildbereichen zugeordnet sind, ein photorealistisches Bild, ein Comic-Bild, eine Strichzeichnung, eine Aquarell-Skizze und dergleichen. Zum Erstellen und Testen von Fahrerassistenzfunktionen und/oder autonomen Fahrfunktionen für ein Kraftfahrzeug, die auf einer Auswertung von Kamerabildern der aktuellen Fahrzeugumgebung basieren, ist es notwendig, eine ausreichende Anzahl von photorealistischen Bildern der Fahrzeugumgebung bereitzustellen. Diese Bilder sollen Kamerabilder ersetzen und von solchen möglichst nicht unterscheidbar sein. Diese Bilder können zudem optional mit einer Metainformation zur Verfügung gestellt werden, die beispielsweise eine Segmentierungsinformation umfassen, die Bildbereiche des photorealistischen Bildes bestimmten Objekten oder Hintergründen zuordnet. Somit ist eine wichtige Anwendung für ein so trainiertes neuronales Netz die Umwandlung eines z. B. durch eine Skriptsprache oder als Handskizze beschriebenen Eingangsbilds in ein künstlich erzeugtes photorealistisches Ausgangsbild, das dem Eingangsbild inhaltlich bzw. szenarisch entspricht, jedoch in der Darstellungsweise, dem Darstellungsstil, von diesem abweicht. The aim of the above method is to train a neural network so that a given input image is converted into an output image. In this case, the input and output images should have different styles, ie the input image data should be available in a first domain and the output image data in a second domain. The styles correspond to display styles, such as a segmentation representation in which, for example, different color areas are assigned to different objects or image areas, a photorealistic image, a comic image, a line drawing, a watercolor sketch, and the like. To create and test driver assistance functions and / or autonomous driving functions for a motor vehicle based on an evaluation of camera images of the current vehicle environment, it is necessary to provide a sufficient number of photorealistic images of the vehicle environment. These images are intended to replace camera images and to be as indistinguishable as possible from them. These images may also optionally be provided with meta information including, for example, segmentation information that associates image areas of the photorealistic image with particular objects or backgrounds. Thus, an important application for such a trained neural network is the conversion of a z. B. by a scripting language or as a hand sketch described input image into an artificially generated photorealistic output image that corresponds to the input image content or scenic, but in the representation, the style of presentation, deviates from this.
Im Folgenden wird von einer Umwandlung eines Eingangsbilds eines ersten Stiles in ein Ausgangsbild eines zweiten Stiles bzw. eines Eingangsbilds in einer ersten Domäne in ein Ausgangsbild in einer zweiten Domäne gesprochen, um diesen Generierungsprozess zu beschreiben. Beispielsweise kann ein Eingangsbild, das lediglich Bildbereiche für bestimmte Objekte und/oder Hintergründe angibt, wie beispielsweise Bildbereiche zur Darstellung einer Person, eines Fahrradfahrers, eines Straßenbereichs, eines Bebauungsbereichs, eines Vegetationsbereichs und dergleichen, so durch das trainierte neuronale Netz verarbeitet werden, dass die entsprechenden Bildbereiche mit realistischen Strukturen der entsprechenden Objekte versehen werden. In the following, a conversion of an input image of a first style into an output image of a second style or an input image in a first domain into an output image in a second domain is spoken to describe this generation process. For example, an input image indicating only image areas for particular objects and / or backgrounds, such as image areas representing a person, a cyclist, a road area, a development area, a vegetation area, and the like, may be processed by the trained neural network such that corresponding image areas are provided with realistic structures of the corresponding objects.
Dazu sieht das obige Verfahren vor, ein GAN-Netzwerk zu verwenden (GAN: Generative Adversarial Network), bei dem ein Generatornetzwerk, das einem ersten neuronalen Netz entspricht, mithilfe eines Diskriminatornetzwerks, das einem zweiten neuronalen Netz entspricht, trainiert werden soll. Das Generatornetzwerk erzeugt dann aus bereitgestellten Eingangsbilddaten in einer ersten Domäne Ausgangsbilddaten in einer zweiten Domäne. For this purpose, the above method envisages using a GAN network (GAN: Generative Adversarial Network) in which a generator network corresponding to a first neural network is to be trained by means of a discriminator network which corresponds to a second neural network. The generator network then generates output image data in a second domain from provided input image data in a first domain.
Bei einem GAN-Netzwerk wird die Güte des Trainings des Generatornetzwerks mithilfe des Diskriminatornetzwerks verbessert. Das Diskriminatornetzwerk liefert für das Training des Generatornetzwerks als relevante Information ein Bewertungslabel für das vom Generatornetzwerk generierte Ausgangsbild. Zum Bereitstellen des Bewertungslabels wird das Diskriminatornetzwerk so trainiert, dass dieses bewerten kann, ob ein an dessen Eingang bereitgestelltes Bild ein Bild in einer zweiten Domäne ist. Das Diskriminatornetzwerk wird zeitgleich oder im Wechsel mit dem Generatornetzwerk basierend auf vom Generatornetzwerk generierten Ausgangsbildern und Trainingsbildern in einer zweiten Domäne trainiert, wobei den Trainingsbildern ein Bewertungslabel zu geordnet wird, das ein hohes Zuordnungsmaß zur zweiten Domäne angibt (d. h. angibt, dass die betreffenden Bilder der zweiten Domäne zuzuordnen sind). Zudem werden dem Diskriminatornetzwerk die Ausgangsbilder zugeführt, die vom Generatornetzwerk erstellt wurden, zusammen mit einem Bewertungslabel, das ein niedriges Zuordnungsmaß zur zweiten Domäne angibt (d. h. angibt, dass die betreffenden Bilder der zweiten Domäne künstlich durch das Generatornetzwerk erzeugt wurden). In a GAN network, the quality of training the generator network using the discriminator network is improved. The discriminator network provides training for the generator network as relevant information Rating label for the output image generated by the generator network. To provide the rating label, the discriminator network is trained to evaluate whether an image provided at its input is an image in a second domain. The discriminator network is trained at the same time or in alternation with the generator network based on generator-generated output images and training images in a second domain, wherein the training images are assigned a rating label indicating a high degree of allocation to the second domain (ie, indicating that the images in question are the second domain). In addition, the discriminator network is supplied with the output images generated by the generator network, together with a rating label indicating a low allocation level to the second domain (ie indicating that the respective second domain images were artificially generated by the generator network).
Generatornetzwerk und Diskriminatornetzwerk können wechselweise trainiert werden, wodurch iterativ beide neuronale Netze verbessert werden und das Generatornetzwerk letztlich lernt, ein bereitgestelltes Eingangsbild in der ersten Domäne in ein Ausgangsbild in der zweiten Domäne umzuwandeln. Generator network and discriminator network can be trained alternately, thereby iteratively improving both neural networks and finally learning the generator network to convert a provided input image in the first domain into an output image in the second domain.
Zum Training des Generatornetzwerks und des Diskriminatornetzwerks werden Verlustfunktionen bzw. Kostenfunktionen verwendet. Zum Training des Generatornetzwerks wird als Kostenfunktion eine Generatorfehlerfunktion verwendet, die zwei Teile umfasst. Ein erster Teil erzwingt, dass das generierte Ausgangsbild der zweiten Domäne zugeordnet wird. Hierfür wird das durch das Generatornetzwerk generierte Ausgangsbild dem Diskriminatornetzwerk zugeführt und der Abstand zum gewünschten Bewertungslabel (Bewertungslabel für ein Trainingsbild der zweiten Domäne) minimiert. Der zweite Teil stellt sicher, dass die Bildinhalte des durch das Generatornetzwerk generierten Ausgangsbildes dem Ursprungsbild entsprechen, indem ein struktureller Abstand des Ausgangsbildes zum Eingangsbild minimiert wird, d. h. das Ausgangsbild unterscheidet sich von dem Eingangsbild lediglich durch den Darstellungsstil (Domäne) aber nur wenig durch den Bildinhalt bzw. die dargestellte Szene. To train the generator network and the discriminator network, loss functions or cost functions are used. To train the generator network, a generator function that includes two parts is used as the cost function. A first part forces the generated output image to be assigned to the second domain. For this purpose, the output image generated by the generator network is supplied to the discriminator network and the distance to the desired evaluation label (evaluation label for a training image of the second domain) is minimized. The second part ensures that the image contents of the output image generated by the generator network correspond to the original image by minimizing a structural distance of the output image to the input image, i. H. the output image differs from the input image only by the style of presentation (domain) but only slightly by the image content or the scene shown.
Der strukturelle Abstand kann beispielsweise durch einen Ähnlichkeitswert bestimmt werden, der ein Maß für die strukturelle Ähnlichkeit von zwei Bildern in unterschiedlichen Domänen ist. Beispielsweise eignet sich hierfür ein SSIM-Index (SSIM: Structural Similarity Index), der die strukturelle Ähnlichkeit zwischen dem Eingangs- und dem Ausgangsbild in bekannter Weise angibt. The structural distance can be determined, for example, by a similarity value, which is a measure of the structural similarity of two images in different domains. For example, an SSIM index (SSIM: Structural Similarity Index), which indicates the structural similarity between the input image and the output image in a known manner, is suitable for this purpose.
Auf diese Weise wird ermöglicht, dass das Generatornetzwerk darauf trainiert wird, ein Eingangsbild in der ersten Domäne bzw. eines ersten Darstellungsstils in ein Ausgangsbild in einer zweiten Domäne, d.h. eines zweiten Darstellungsstils, umzuwandeln. Dazu müssen die Eingangsbilder des ersten Darstellungsstils und die Trainingsbilder des zweiten Darstellungsstils vorgegeben werden, wobei eine Ähnlichkeit oder Identität der Darstellung der Eingangsbilder und der Trainingsbilder nicht notwendig ist, d. h. es ist nicht notwendig, Eingangsbilder bereitzustellen, die sich von den Trainingsbildern nur durch den Darstellungsstil unterscheiden. In this way, the generator network is allowed to train an input image in the first domain or a first rendering style into an output image in a second domain, i. a second style of presentation, to transform. For this, the input images of the first presentation style and the training images of the second presentation style must be specified, wherein a similarity or identity of the representation of the input images and the training images is not necessary, d. H. it is not necessary to provide input images that differ from the training images only by the style of presentation.
Durch das obige Verfahren kann somit ein neuronales Netz (Generatornetzwerk) trainiert werden, das automatisiert und überwacht aus synthetischen Eingangsbildern, die beispielsweise eine Verkehrssituation schematisch bzw. stilisiert zeigen, photorealistische Ausgangsbilder der entsprechenden Verkehrssituation generiert. Die Ausgangsbilder können dann dazu verwendet werden, Fahrerassistenzfunktionen bzw. autonome Fahrfunktionen zu entwickeln und/oder zu testen. Ein Vorteil besteht insbesondere darin, dass Situationen erstellt werden können, die in der Realität nicht getestet werden können, wie z. B. eine auf die Fahrbahn rennende Person zum Testen eines Bremsassistenzsystems bzw. zum Testen eines Ausweichverhaltens einer autonomen Fahrfunktion. Thus, a neural network (generator network) can be trained by the above method, which automatically and monitored from synthetic input images that show, for example, a traffic situation schematically or stylized, photorealistic output images of the corresponding traffic situation generated. The output images can then be used to develop and / or test driver assistance functions or autonomous driving functions. One particular advantage is that situations can be created that can not be tested in reality, such as: B. a running on the roadway person to test a brake assist system or to test an evasive behavior of an autonomous driving function.
Insgesamt lässt sich durch das oben beschriebene Trainingsverfahren eine deutlich verbesserte Umsetzung eines Eingangsbildes eines ersten Darstellungsstils in ein entsprechendes Ausgangsbild eines zweiten Darstellungsstils erreichen, wobei das Trainingsverfahren in einfacher Weise implementiert werden kann und eine hohe Zuverlässigkeit und Robustheit aufweist. Auch führt das obige Trainingsverfahren zu besseren Resultaten, d. h. eine verbesserte präzisere Umsetzung des Eingangsbildes des ersten Darstellungsstils in das Ausgangsbild des zweiten Darstellungsstils, als entsprechende herkömmliche Verfahren. Weiterhin kann das Trainieren des Diskriminatornetzwerks und des Generatornetzwerks gleichzeitig oder wechselweise wiederholt durchgeführt werden, insbesondere mithilfe eines Backpropagation-Verfahrens, bis eine Abbruchbedingung erfüllt ist. Overall, the training method described above can achieve a significantly improved conversion of an input image of a first presentation style into a corresponding output image of a second presentation style, wherein the training method can be implemented in a simple manner and has high reliability and robustness. Also, the above training method results in better results, ie, an improved more precise conversion of the input image of the first presentation style into the output image of the second presentation style, than corresponding conventional methods. Furthermore, the training of the discriminator network and the generator network can be performed simultaneously or alternately repeatedly, in particular using a backpropagation method, until an abort condition is met.
Es kann vorgesehen sein, dass die Abbruchbedingung erfüllt ist, wenn eine Anzahl von Durchgängen oder eine vorbestimmte Güte der vom Generatornetzwerk generierten Ausgangsbilder erreicht ist. It can be provided that the termination condition is fulfilled if a number of passes or a predetermined quality of the output images generated by the generator network is reached.
Weiterhin kann die Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder jeweils durch das Diskriminatornetzwerk bestimmt werden und einer Bewertung entsprechen, in welchem Maß es sich bei dem betreffenden Bild um ein Bild der zweiten Domäne handelt. Furthermore, the quality of the one or more training images and / or the one or more output images may each be determined by the discriminator network and may correspond to a rating of the extent to which the image in question is an image of the second domain.
Insbesondere kann der Diskriminatorfehlerwert abhängig von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des betreffenden einen Trainingsbildes oder der betreffenden mehreren Trainingsbilder und einem Bewertungslabel, das ein Trainingsbild als ein echtes Bild der zweiten Domäne angibt, und abhängig von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des betreffenden einen Ausgangsbildes oder der betreffenden mehreren Ausgangsbilder und einem Bewertungslabel, das ein von dem Generatornetzwerk generiertes Ausgangsbild als unechtes Bild der zweiten Domäne angibt, bestimmt werden, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht. In particular, the discriminator error value may be a function of a deviation measure for the deviation between the respective quality of the one or more training images and a rating label indicating a training image as a real image of the second domain, and depending on a deviation measure for the deviation between the respective quality of the respective one output image or the respective plurality of output images and a rating label which indicates an output image generated by the generator network as a false image of the second domain, the deviation measure corresponding in particular to a mean squared error or a binary cross entropy.
Es kann vorgesehen sein, dass die Ähnlichkeitsgröße von einem SSIM-Index für eine strukturelle Ähnlichkeit zwischen einem der Eingangsbilder und einem durch das Generatornetzwerk aus dem betreffenden Eingangsbild generierten Ausgangsbild abhängt oder diesem entspricht. It can be provided that the similarity quantity depends on or corresponds to an SSIM index for a structural similarity between one of the input images and an output image generated by the generator network from the relevant input image.
Weiterhin kann das erste und/oder das zweite neuronale Netz als Convolutional Neural Network) (faltendes neuronales Netz) ausgebildet sein, wobei insbesondere das erste und/oder das zweite neuronale Netz eine Hintereinanderschaltung von einigen Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken aufweisen, wobei jeder der Blöcke als eine Aktivierungsfunktion eine ReLU-, leaky- ReLU-, tanh- oder Sigmoid-Funktion enthalten kann. Furthermore, the first and / or the second neural network can be configured as a convolutional neural network (folding neural network), wherein in particular the first and / or the second neural network is a series connection of some convolutional layer blocks (Convolution blocks), some ResNet blocks, and some Deconvolutional blocks, each of which blocks may contain as an activation function a ReLU, leaky-ReLU, tanh, or sigmoid function.
Weiterhin kann der Generatorfehlerwert von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einem Bewertungslabel aus dem Diskriminatornetzwerk, das ein Bild der zweiten Domäne angibt, abhängen, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht. Furthermore, the generator error value may depend on a deviation measure for the deviation between the respective quality of the output image provided by the generator network as a function of the input image and a rating label from the discriminator network indicating a second domain image, wherein the deviation measure is in particular a mean squared error or corresponds to a binary cross entropy.
Gemäß einer Ausführungsform kann das Training des Diskriminatornetzwerks und/oder des Generatornetzwerks nur dann durchgeführt werden, wenn eine von dem aktuellen Diskriminatorfehlerwert und/oder von dem Generatorfehlerwert abhängige Bedingung erfüllt ist. According to one embodiment, the training of the discriminator network and / or the generator network can only be performed if a condition dependent on the current discriminator error value and / or on the generator error value is satisfied.
Weiterhin kann ein Verfahren zum Bereitstellen einer Steuerung für ein technisches System, insbesondere für einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine, vorgesehen sein, wobei das obige Verfahren zum Trainieren eines ersten neuronalen Netzes ausgeführt wird, wobei das trainierte erste neuronale Netz verwendet wird, um Trainingsbilder, d.h. Ausgangsbilder der zweiten Domäne, zu erzeugen, mit denen die Steuerung, die insbesondere ein neuronales Netz enthält, trainiert wird. Insbesondere kann das technische System mithilfe der Steuerung betrieben werden. Furthermore, a method for providing a control for a technical system, in particular for a robot, a vehicle, a tool or a factory machine, may be provided, wherein the above method is carried out for training a first neural network, wherein the trained first neural network uses is going to workout images, ie Output images of the second domain, with which the controller, which in particular contains a neural network, is trained. In particular, the technical system can be operated using the controller.
Gemäß einem weiteren Aspekt ist eine Verwendung eines ersten neuronalen Netzes, das entsprechend dem obigen Verfahren trainiert ist, zum Generieren von photorealistischen Ausgangsbildern in einer zweiten Domäne abhängig von vorgegebenen Eingangsbildern in einer ersten Domäne, die insbesondere über eine Skript-basierte Beschreibung erstellt werden According to another aspect, a use of a first neural network trained in accordance with the above method is for generating photorealistic seed images in a second domain dependent on predetermined input images in a first domain, which are created in particular via a script-based description
Weiterhin können die erzeugten photorealistischen Ausgangsbilder als künstliche Kamerabilder zum Herstellen eines Klassifikators für Umgebungssituationen verwendet werden. Gemäß einem weiteren Aspekt ist ein GAN-Netzwerk zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern der ersten Domäne und Trainingsbildern der zweiten Domäne durchgeführt wird, wobei das GAN-Netzwerk ein Generatornetzwerk, das das erste neuronale Netz umfasst, und ein Diskriminatornetzwerk aufweist, das ein zweites neuronales Netz umfasst, wobei das GAN-Netzwerk ausgebildet ist, um Furthermore, the generated photorealistic output images may be used as artificial camera images for establishing a classifier for environmental situations. In another aspect, a GAN network is for training a first neural network to convert an input image of a first domain to an output image of a second domain, wherein the training is performed on first domain input images provided for training and second domain training images the GAN network comprises a generator network comprising the first neural network and a discriminator network comprising a second neural network, the GAN network being adapted to
das Diskriminatornetzwerk basierend auf einem Diskriminatorfehlerwert und einem oder mehreren Trainingsbildern und/oder einem oder mehreren Ausgangsbildern, die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk erzeugt werden, zu trainieren, wobei der Diskriminatorfehlerwert abhängig von einer jeweiligen Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird; und  train the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined; and
das Generatornetzwerk basierend auf einem für das T raining bereitgestellten Eingangsbild und einem Generatorfehlerwert zu trainieren, der von einer Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einer Ähnlichkeitsgröße zwischen dem Eingangsbild und dem Ausgangsbild abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.  train the generator network based on an input image provided for the raining and a generator error value that depends on a quality of the output image provided by the generator network in response to the input image and a similarity size between the input image and the output image that indicates a measure of structural similarity ,
Kurzbeschreibung der Zeichnungen Brief description of the drawings
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen: Embodiments are explained below with reference to the accompanying drawings. Show it:
Figuren 1 a und 1 b beispielhafte Darstellungen eines Bildes eines ersten Figures 1 a and 1 b exemplary representations of an image of a first
Darstellungsstils und eines zugeordneten Bildes eines zweiten Darstellungsstils;  Presentation style and an associated image of a second presentation style;
Figur 2 ein Blockdiagramm zur Veranschaulichung eines Systems zum Trainieren eines GAN-Netzes zur Umsetzung eines Eingangsbildes eines ersten Darstellungsstils und eines Ausgangsbildes eines zweiten Darstellungsstils; und Figur 3 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes in ein Ausgangsbild eines davon verschiedenen Darstellungsstils. Figure 2 is a block diagram illustrating a system for training a GAN network to translate an input image of a first presentation style and an output image of a second presentation style; and FIG. 3 shows a flow chart for illustrating a method for training a neural network for converting an input image into an output image of a different presentation style.
Beschreibung von Ausführungsformen Description of embodiments
Es soll ein neuronales Netz trainiert werden, das in der Lage ist, ein Eingangsbild in ein Ausgangsbild umzuwandeln. Ziel ist es, dass das Eingangsbild in einer ersten Domäne, d. h. in einem ersten Darstellungsstil, bereitgestellt wird und in ein dem Eingangsbild entsprechendes Ausgangsbild in einer zweiten Domäne, d. h. in einem zweiten von dem ersten verschiedenen Darstellungsstil, bereitgestellt wird. "Darstellungsstil" bezeichnet hierin eine Darstellungsweise einer in dem entsprechenden Bild enthaltenen Information. A neural network is to be trained which is able to convert an input image into an output image. The goal is that the input image in a first domain, i. H. in a first display style, and in an output image corresponding to the input image in a second domain, i. H. in a second of the first different style of presentation. "Presentation style" herein refers to a representation of information contained in the corresponding image.
So können beispielsweise ein Segmentierungsbild, das eine Segmentierung von Objekt- und Hintergrundbereichen eines photorealistischen Bilds angibt, oder ein sonstiges künstlich erzeugtes (synthetisches Bild), wie z.B. eine Skizze, als Eingangsbild eine Vorlage darstellen, aus der ein photorealistisches Bild als Ausgangsbild generiert wird, so dass das Eingangsbild und das Ausgangsbild unterschiedlichen Darstellungsstilen entsprechen. Figuren 1 a und 1 b zeigen beispielhafte Darstellungen eines synthetischen Bildes bzw. eines dem synthetischen Bild entsprechenden photorealistischen Bildes in Skizzenform und als realistische Darstellungen. For example, a segmentation image indicating segmentation of object and background areas of a photorealistic image, or other artificially generated (synthetic) image, such as a photorealistic image, may be used. a sketch, as an input image represent a template from which a photorealistic image is generated as an output image, so that the input image and the output image correspond to different presentation styles. Figures 1 a and 1 b show exemplary representations of a synthetic image or a photorealistic image corresponding to the synthetic image in sketch form and as realistic representations.
Eine mögliche Anwendung eines so trainierten neuronalen Netzes könnte darin bestehen, ein vorgegebenes Eingangsbild in Form eines Segmentierungsbildes, bei dem lediglich Segmentierungsbereiche vorgegeben sind, in ein künstlich erzeugtes photorealistisches Ausgangsbild umzuwandeln. So kann, wie in Figur 1 als Realbild und als Skizzenbild gezeigt, beispielsweise ein Segmentierungsbild (Figur 1 a), in dem lediglich Flächen gekennzeichnet sind, die beispielsweise Darstellungsbereiche für einen Fahrbahnbereich, einen Bebauungsbereich, einen Vegetationsbereich, von Fremdfahrzeugen, von Fußgängern, von Fahrradfahrern oder von sonstigen Objekten aufweisen, in ein entsprechendes photorealistisches Bild (Figur 1 b) umgewandelt werden. Ein solches photorealistisches Bild kann dann in einer Test- oder Entwicklungsumgebung zum Testen und/oder Erstellen von Fahrerassistenzfunktionen oder autonomen Fahrfunktionen verwendet werden. A possible application of such a trained neural network could be to convert a given input image in the form of a segmentation image, in which only segmentation ranges are given, into an artificially generated photorealistic output image. Thus, as shown in Figure 1 as a real image and as a sketch image, for example, a Segmentierungsbild (Figure 1 a) in which only areas are marked, for example, display areas for a carriageway area, a development area, a vegetation area of foreign vehicles, pedestrians, of Cyclists or other objects, in a corresponding photorealistic Image (Figure 1 b) are converted. Such a photorealistic image may then be used in a test or development environment for testing and / or creating driver assistance functions or autonomous driving functions.
Zum Trainieren eines neuronalen Netzes kann ein System verwendet werden, das strukturell dem Blockschaltbild der Figur 2 entspricht. Figur 2 zeigt im Wesentlichen eine Grundstruktur eines GAN-Netzwerks 1 mit einem Generatornetzwerk 2, das ein erstes neuronales Netz umfasst, und einem Diskriminatornetzwerk 3, das ein zweites neuronales Netz umfasst. Das erste und/oder zweite neuronale Netz können insbesondere als faltende neuronale Netze (convolutional neural networks) oder andere Arten von neuronalen Netzen ausgebildet sein. To train a neural network, a system may be used which structurally corresponds to the block diagram of FIG. FIG. 2 essentially shows a basic structure of a GAN network 1 with a generator network 2 comprising a first neural network and a discriminator network 3 comprising a second neural network. The first and / or second neural network may in particular be designed as convolutional neural networks or other types of neural networks.
Für das erste neuronale Netz des Generatornetzwerks 2 sind verschiedene an sich bekannte Architekturen denkbar. Insbesondere kann eine Hintereinanderschaltung von einigen Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken gewählt werden. Jeder dieser Blöcke kann optional eine Batch- oder andere Art der Normalisierung umfassen. Jeder der Blöcke kann weiterhin keine, eine oder mehrere Aktivierungsfunktionen enthalten, wie beispielsweise eine ReLU-, leaky- ReLU-, tanh- oder Sigmoid-Funktion. Various architectures known per se are conceivable for the first neural network of the generator network 2. In particular, a series connection of a few convolutional layer blocks (folding blocks), some ResNet blocks and a few deconvolutional blocks can be selected. Each of these blocks may optionally include a batch or other type of normalization. Each of the blocks may further contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
Für das zweite neuronale Netz des Diskriminatornetzwerks 3 können ebenfalls verschiedene an sich bekannte Netzwerkarchitekturen vorgesehen werden. Als Netzwerkarchitektur können eine Hintereinanderschaltung von Blöcken, wie mehreren Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet- Blöcken und einigen Deconvolutional-Blöcken verwendet werden. Jeder dieser Blöcke kann ein Batch- oder eine andere Art der Normalisierung enthalten. Weiterhin kann jeder der Blöcke keine, eine oder mehrere Aktivierungsfunktionen enthalten, wie beispielsweise eine ReLU-, leaky-ReLU-, tanh- oder Sigmoid- Funktion. For the second neural network of the discriminator network 3, various network architectures known per se can also be provided. As a network architecture, it is possible to use a series of blocks, such as a plurality of convolutional-layer blocks, some ResNet blocks, and a few deconvolutional blocks. Each of these blocks may contain a batch or other type of normalization. Furthermore, each of the blocks may contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
Das Generatornetzwerk 2 ist ausgebildet, um basierend auf einem Eingangsbild E eines ersten Darstellungsstils ein Ausgangsbild A eines zweiten Darstellungsstils zu erzeugen. Das Eingangsbild E kann ein Bild mit einem oder mehreren Farbkanälen, insbesondere drei Farbkanälen, sein und das Ausgangsbild A ein Tensor desselben oder abweichenden Formats. Alternativ kann dem Eingangsbild E ein Zufallstensor hinzugefügt werden, der dafür sorgt, dass das Ausgangsbild A eine höhere Variabilität aufweist. The generator network 2 is designed to generate an output image A of a second presentation style based on an input image E of a first presentation style. The input image E can be an image with one or more Be color channels, in particular three color channels, and the output image A a tensor same or different format. Alternatively, a random tensor may be added to the input image E to cause the output image A to have higher variability.
Das Generatornetzwerk 2 wird basierend auf einem bereitgestellten Generatorfehlerwert GF trainiert, insbesondere mithilfe eines Backpropagation- Verfahrens. Der Generatorfehlerwert GF wird in einem Bewertungsblock 4 erzeugt, der einerseits die strukturelle Ähnlichkeit S bzw. Unähnlichkeit des Eingangsbilds E und des von dem Generatornetzwerk 2 basierend auf einem vorgegebenen Eingangsbild E generierten Ausgangsbilds A (Bildähnlichkeit (Ähnlichkeit des Bildinhalts bzw. der Szene) ungeachtet der Domäne bzw. des Darstellungsstils) und andererseits die Güte C des Ausgangsbildes A angibt. Die Güte C des Ausgangsbildes A gibt die Nähe des Darstellungsstils des Ausgangsbildes A zu dem Darstellungsstil von vorgegebenen Trainingsbildern T an. The generator network 2 is trained based on a provided generator error value GF, in particular using a backpropagation method. The generator error value GF is generated in an evaluation block 4, on the one hand, the structural similarity S or dissimilarity of the input image E and of the generator network 2 based on a predetermined input image E generated output image A (image similarity (similarity of the image content or the scene) regardless of Domain or the presentation style) and on the other hand, the quality C of the output image A indicates. The quality C of the output image A indicates the proximity of the presentation style of the output image A to the style of presentation of predetermined training images T.
Die Güte C des Ausgangsbildes A wird mithilfe des Diskriminatornetzwerks 3 bestimmt, dem als Eingang das erstellte Ausgangsbild A bereitgestellt wird. Durch Berücksichtigung der Güte C beim Training des Generatornetzwerks 3 wird erreicht, dass das generierte Ausgangsbild A den zweiten Darstellungsstil annimmt. Zusätzlich wird durch Berücksichtigung der strukturellen Ähnlichkeit S zwischen Eingangsbild E und Ausgangsbild A erreicht, dass die Bilder denselben Bildinhalt haben. The quality C of the output image A is determined by means of the discriminator network 3, to which the output image A produced is provided as input. By taking into account the quality C during training of the generator network 3, it is achieved that the generated output image A assumes the second style of presentation. In addition, by taking into account the structural similarity S between the input image E and the output image A, it is achieved that the images have the same image content.
Zum Training können dem Diskriminatornetzwerk 3 Trainingsbilder T zugeführt werden, die Bilder des zweiten Darstellungsstils sind und die jeweils mit einem Bewertungslabel BT versehen sind, das den zweiten Darstellungsstil der Trainingsbilder bestätigt. Beispielsweise können die Trainingsbilder T mit einem Bewertungslabel BT von 1 versehen werden, was angibt, dass die Trainingsbilder T dem zweiten Darstellungsstil entsprechen. Um die Diskriminierungsfähigkeit des Diskriminatornetzwerks 3 zu verbessern, können zum Training dem Diskriminatornetzwerk 3 auch die durch das Generatornetzwerk 2 erzeugten Ausgangsbilder A bereitgestellt, die mit einem Bewertungslabel BA von 0 versehen sind, was angibt, dass der Darstellungsstil dieser Bilder sich von dem zweiten Darstellungsstil erheblich unterscheidet. Durch Bereitstellen der Trainingsbilder T und der Ausgangsbilder mit den zugehörigen Bewertungslabels BT, BA kann das Diskriminatornetzwerk 3 z. B. mithilfe des Backpropagation-Verfahrens oder eines sonstigen Trainingsverfahrens trainiert werden, die Güte C von durch das Generatornetzwerk 2 bereitgestellten Ausgangsbildern A zu bestimmen. For training, the discriminator network 3 can be supplied with training images T, which are images of the second representation style and which are each provided with a rating label BT, which confirms the second presentation style of the training images. For example, the training images T may be provided with a rating label BT of 1, indicating that the training images T correspond to the second style of presentation. In order to improve the discrimination capability of the discriminator network 3, the discriminator network 3 can also be provided with the output images A generated by the generator network 2, which are provided with a rating label B A of 0, indicating that the presentation style of these images is of the second style significantly different. By providing the training images T and the output images with the associated evaluation labels BT, BA, the Discriminator network 3 z. B. be trained using the Backpropagation method or other training method to determine the quality of C provided by the generator network 2 output images A.
Beim Training des Diskriminatornetzwerks 3 kann dieses mithilfe einer Diskriminatorfehlerfunktion DFK, wie z. B. einer Mean Squared Error, binären Cross Entropy oder anderer geeigneter Kostenfunktionen trainiert werden. Dadurch erhält das Diskriminatornetzwerk 3 durch Beeinflussung des Generatorfehlerwerts die Fähigkeit, dass das Generatornetzwerk 2 nicht nur Ausgangsbilder A erzeugt, die dem zweiten Darstellungsstil entsprechen, sondern dass gleichzeitig die Ausgangsbilder A denselben Bildinhalt haben, wie das dem Generatornetzwerk 2 zugeführte Eingangsbild E des ersten Darstellungsstils. When training the discriminator network 3, this can with the help of a discriminator error DFK, such. As a mean squared error, binary cross entropy or other appropriate cost functions are trained. As a result, by influencing the generator error value, the discriminator network 3 obtains the capability that the generator network 2 generates not only output images A corresponding to the second display style, but simultaneously the output images A have the same image content as the input image E of the first presentation style supplied to the generator network 2.
Durch eine wechselseitige oder gleichzeitige Trainingsphase von Generatornetzwerk 2 und Diskriminatornetzwerk 3 können diese iterativ verbessert werden. Dabei wird das Generatornetzwerk 2 mit dem Generatorfehlerwert GF mithilfe eines Backpropagation-Verfahrens oder eines sonstigen Trainingsverfahren trainiert, wobei der Generatorfehlerwert GF durch die strukturelle Ähnlichkeit zwischen dem Eingangsbild E und dem durch das Generatornetzwerk 2 generierten Ausgangsbild A und durch die von dem Diskriminatornetzwerk 3 bestimmte Güte C des durch das Generatornetzwerk 2 generierten Ausgangsbilds A bestimmt ist. Through a mutual or simultaneous training phase of generator network 2 and discriminator network 3, these can be iteratively improved. In this case, the generator network 2 is trained with the generator error value GF by means of a backpropagation method or another training method, the generator error value GF being determined by the structural similarity between the input image E and the output image A generated by the generator network 2 and by the quality determined by the discriminator network 3 C of the generated by the generator network 2 output image A is determined.
Abhängig von dem Trainingsbild T als Eingang des Diskriminatornetzwerks 3 wird ein Tensor Bx bereitgestellt. Dieser kann mehrdimensional sein oder einer reellen Zahl entsprechen. Der Tensor Bx entspricht dem Bewertungslabel und kann für die Trainingsbilder elementweise jeweils 1 und für die durch das Generatornetzwerk erzeugten Bilder jeweils 0 angeben. Die Bewertungslabel entsprechen somit Bi für ein Trainingsbild T und Bo für ein von dem Generatornetzwerk generiertes Ausgangsbild A. Die Dimension des Bewertungslabels B ist im Wesentlichen frei wählbar und abhängig von der gewählten Netzwerkarchitektur. Das Bewertungslabel B kann auch mit einer anderen Normierung versehen sein, und insbesondere können sogenannte weiche Bewertungslabel B angesetzt werden d. h., dass anstelle der Werte 1 und 0 auch entsprechend leicht verrauschte Werte angenommen werden können, wodurch die Stabilität des Trainings je nach Anwendungsfall verbessert werden kann. Die Abbildung des Diskriminatornetzwerks 3 entspricht D9d, wobei 0D die zu optimierenden Diskriminatorparameter (Gewichtungen) des neuronalen Netzes des Diskriminatornetzwerks sind. Analog entspricht die Abbildung, die vom Generatornetzwerk 2 durchgeführt wird, GgG , wobei 0G die zu optimierenden Generatorparameter (Gewichtungen) des neuronalen Netzes des Generatornetzwerks 2 sind. Depending on the training image T as the input of the discriminator network 3, a tensor B x is provided. This can be multidimensional or correspond to a real number. The tensor B x corresponds to the evaluation label and can indicate 1 for the training images and 0 for the images generated by the generator network. The rating labels thus correspond to Bi for a training image T and Bo for an output image A generated by the generator network. The dimension of the evaluation label B is essentially freely selectable and depends on the selected network architecture. The evaluation label B can also be provided with a different standardization, and in particular so-called soft evaluation labels B can be used, ie instead of the values 1 and 0 correspondingly slightly noisy values can be assumed, whereby the stability of the training can be improved depending on the application , The map of the discriminator network 3 corresponds to D 9d , where 0 D are the discriminator parameters (weights) of the neural network of the discriminator network to be optimized. Analogously, the mapping performed by the generator network 2 corresponds to Gg G, where 0 G are the generator parameters (weights) of the neural network of the generator network 2 to be optimized.
Die Diskriminatorfehlerfunktion zum Training des Diskriminatornetzwerks 2 dient der Bestimmung des Diskriminatorfehlerwerts DF, der im Training zur Parameteroptimierung der Diskriminatorparameter 0D verwendet wird. Die Verlustfunktion weist mehrere Summanden ID auf. Die Diskriminatorfehlerfunktion ist in dem Diskriminatorbewertungsblock 4 implementiert und bewertet zum Training eine Abweichung lD zwischen einer für ein angelegtes Bild (Trainingsbild T oder Ausgangsbild A) ermittelten Güte C (T) = ϋqo( T) oder C (A) = DgD{f ) und einem dem angelegten (zugeführten) Bild zugeordneten Bewertungslabel BA , BT (z. B. 1 für Trainingsbild T oder 0 für ein Ausgangsbild A). Die Diskriminatorfehlerfunktion DFK, die für dieses Training des Diskriminatornetzwerks 3 verwendet wird, muss ein Abweichungsmaß lD realisieren, wie weit C(T), C(A) und das entsprechende Bewertungslabel BA , BT voneinander abweichen. Zur Bestimmung des Abweichungsmaßes lD kann man jede geeignete Funktion zur Abstandsbewertung annehmen, wobei insbesondere der Mean Squared Error (MSE) oder die binäre Cross Entropy (BCE) hierfür geeignet sind. Somit gehen die beiden Größen lD (T) = MSE{ C(T), BT) bzw. lD (T) = BCE{ C(T), BT) und The discriminator error function for training the discriminator network 2 serves to determine the discriminator error value DF used in the parameter optimization training of the discriminator parameter 0D. The loss function has several addend IDs. The Diskriminatorfehlerfunktion implemented in the Diskriminatorbewertungsblock 4 and evaluated for training a deviation l D between a for an applied image (training image T or output image A) determined grade C (T) = ϋ qo (T) or C (A) = Dg D { f) and a rating label B A , B T assigned to the applied (supplied) image (eg 1 for training image T or 0 for an output image A). The discriminator error function DFK used for this training of the discriminator network 3 must realize a deviation measure l D as far as C (T), C (A) and the corresponding evaluation label B A , B T differ from each other. In order to determine the deviation measure l D , it is possible to assume any suitable function for distance evaluation, whereby in particular the mean squared error (MSE) or the binary cross entropy (BCE) are suitable for this purpose. Thus, the two quantities L D (T) = MSE {C (T), B T ) and l D (T) = BCE {C (T), B T ) and
lD Ä) = MSE{ C(Ä), Ba ) bzw. lD (Ä) = BCE{ C{Ä), BA ) in die Verlustfunktion des Diskriminatornetzwerks 3 ein, so dass beispielsweise DF = lD (T) + lD Ä) gewählt werden kann. l D A) = MSE {C (λ), B a ) or l D (λ) = BCE {C {λ), B A ) into the loss function of the discriminator network 3, so that, for example, DF = I D (T. ) + l D Ä) can be selected.
Zum Training des Generatornetzwerks 2 wird eine Generatorfehlerfunktion verwendet, um einen Generatorfehlerwert, der aus zwei Teilen besteht, wobei ein erster Teil einem Abweichungsmaß lG zwischen der Güte C des Ausgangsbilds AT entspricht, das basierend auf einem zum Training angelegten Eingangsbild ET generiert wurde, und einem Bewertungslabel B, das ein vollständiges Erreichen des zweiten Darstellungsstils angibt, insbesondere einem Bewertungslabel BT, das Trainingsbildern T für das Training des Diskriminatornetzwerks 3 vorgegeben wird, vorzugsweise einem Bewertungslabel von 1. For training the generator network 2, a generator error function is used to generate a generator error value consisting of two parts, a first part corresponding to a deviation amount l G between the quality C of the output image A T based on an input image E T applied for training and a rating label B indicating complete achievement of the second display style, in particular a rating label BT, which is given training images T for the training of the discriminator network 3, preferably a rating label of 1.
Zur Bestimmung des Abweichungsmaßes lG mithilfe der Generatorfehlerfunktion kann man jede geeignete Funktion zur Abstandsbewertung annehmen, wobei insbesondere der Mean Squared Error (MSE) oder die binäre Cross Entropy (BCE) hierfür geeignet sind. lG = MSE( D(AT), BT) bzw. lG = BCE{ D{AT), BT) wobei AT = G(ET ) entspricht. In order to determine the deviation measure l G by means of the generator error function, one can assume any suitable function for distance evaluation, whereby in particular the Mean Squared Error (MSE) or the binary Cross Entropy (BCE) are suitable for this purpose. l G = MSE (D (A T ), B T ) or l G = BCE {D {A T ), B T ) where A T = G (E T ).
Der zweite Teil der Generatorfehlerfunktion entspricht einer Ähnlichkeitsgröße S, die in einem Ähnlichkeitsblock 6 mithilfe einer Ähnlichkeitsbewertungsfunktion ermittelt wird. Die Ähnlichkeitsbewertungsfunktion berechnet basierend auf dem für das Training verwendeten Eingangsbild ET des ersten Darstellungsstils und dem entsprechend durch das Generatornetzwerk 2 generierte Ausgangsbild AT des zweiten Darstellungsstils ein Maß für eine strukturelle Ähnlichkeit der beiden Bilder. Insbesondere kann als eine Ähnlichkeitsbewertungsfunktion eine Funktion vorgesehen sein, die bei einer hohen strukturellen Ähnlichkeit einem Wert nahe 1 und bei keinerlei struktureller Ähnlichkeit nahe -1 annimmt. Geeignet als Ähnlichkeitsbewertungsfunktion ist beispielsweise, eine sogenannte SSIM- Funktion zu wählen, die einen Index struktureller Ähnlichkeit angibt oder eine darauf aufbauende MSSIM, wie beispielsweise aus Zhou Wang et al., “Image Quality Assessment: From Error Visibility to Structural Similarity”, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004, Seite 600 - 612 bekannt, verwendet. The second part of the generator error function corresponds to a similarity quantity S, which is determined in a similarity block 6 by means of a similarity evaluation function. The similarity evaluation function calculates a measure of a structural similarity of the two images based on the input image ET of the first presentation style and the output image AT of the second presentation style respectively generated by the generator network 2. In particular, a function may be provided as a similarity evaluation function which, with a high structural similarity, assumes a value close to 1 and with no structural similarity near -1. Suitable as a similarity evaluation function is, for example, to select a so-called SSIM function which indicates an index of structural similarity or a MSSIM based thereon, such as Zhou Wang et al., Image Quality Assessment: From Error Visibility to Structural Similarity, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004, pages 600-612.
In dem Flussdiagramm der Figur 3 wird anschaulich das Trainingsverfahren für das erste neuronale Netz des Generatornetzwerks 2 beschrieben, so dass das trainierte Generatornetzwerk 2 zur Änderung eines Darstellungsstils eines Eingangsbildes E verwendet werden kann. Dabei wird initial von einer Anfangsparametrisierung des ersten neuronalen Netzes mit den Generatorparametern 0G und dem zweiten neuronalen Netz mit den Diskriminatorparametern 0D ausgegangen. In the flow chart of Figure 3, the training method for the first neural network of the generator network 2 is descriptive described, so that the trained generator network 2 can be used to change a display style of an input image E. Initially, an initial parameterization of the first neural network with the Generator parameters 0G and the second neural network with the discriminator 0D.
In Schritt S1 wird basierend auf einem zum Training bereitgestellten Eingangsbild ET eines ersten Darstellungsstils ein Ausgangsbild AT eines zweiten Darstellungsstils berechnet: AT = GgD(ET ). In step S1, based on an input image ET of a first presentation style provided for training, an output image AT of a second presentation style is calculated: A T = Gg D (E T ).
Mithilfe des Diskriminatornetzwerks 3 wird in Schritt S2 eine Güte With the aid of the discriminator network 3, a quality is achieved in step S2
des von dem Generatornetzwerk 2 generierten Ausgangsbildes AT und daraus das Abweichungsmaß lG = MSE{ C(AT ), BT) bzw. lG = BCE{ C(AT ), BT) ermittelt. of the output image A T generated by the generator network 2 and from this the deviation measure l G = MSE {C (A T ), B T ) or l G = BCE {C (A T ), B T ).
In Schritt S3 wird die Ähnlichkeitsgröße S zwischen dem zum Training bereitgestellten Eingangsbild ET und dem entsprechenden Ausgangsbild AT berechnet: In step S3, the similarity quantity S between the input image ET provided for training and the corresponding output image AT is calculated:
S = SSIM(AT, ET ) S = SSIM (A T , E T )
Basierend auf dem Abweichungsmaß lG und dem Ähnlichkeitsmaß S wird mithilfe der Generatorfehlerfunktion GFF in Schritt S4 ein Generatorfehlerwert GF für das generierte Ausgangsbild AT ermittelt. Based on the deviation measure l G and the similarity measure S, a generator error value GF for the generated output image A T is determined using the generator error function GFF in step S4.
GF =GFF {lG, S) GF = GFF {l G , S)
Beispielsweise kann der Generatorfehlerwert GF bestimmt sein als: GF = lG+ k*S, wobei der Optimierungsfaktor k entsprechend empirisch gewählt werden kann und insbesondere zwischen -1 ...-3 gewählt werden kann, wenn ZG e {0; l) und Se {-1; 1) sind. For example, the generator error value GF can be determined as: GF = 1 G + k * S, where the optimization factor k can be chosen empirically and, in particular, between -1... 3 can be selected if Z G e {0; I) and Se {-1; 1 are.
Basierend auf dem Generatorfehlerwert GF wird in Schritt S5 ein Lernschritt für das erste neuronale Netz des Generatornetzwerk 2 durchgeführt, insbesondere basierend auf einem Backpropagation-Verfahren. Dadurch werden die Generatorparameter 0G basierend auf den partiellen Ableitungen dGF/d0G aktualisiert. Based on the generator error value GF, a learning step for the first neural network of the generator network 2 is performed in step S5, in particular based on a backpropagation method. Thereby, the generator parameters 0 G are updated based on the partial derivatives dGF / d0 G.
Gegebenenfalls können die Schritte S1 bis S5 des Trainings des Generatornetzwerks 2 mit demselben oder einem anderen zum Training bereitgestellten Eingangsbild ET wiederholt werden. If appropriate, the steps S1 to S5 of the training of the generator network 2 can be repeated with the same or with another input image ET provided for training.
Nun beginnt das Training des Diskriminatornetzwerks 3. In einem nachfolgenden Schritt S6 wird für ein oder mehrere vorgegebene Trainingsbilder Ti..n in dem zweiten Darstellungsstil eine Güte C(Ti..n) entsprechend dem aktuellen Trainingszustand des Diskriminatornetzwerks 3 ermittelt und daraus in Schritt S7 das bzw. die Abweichungsmaße lD (T n) bestimmt: lD (T) = MSE{ C(X), BT) bzw. lD (T) = BCE{ C(X), BT) Now the training of the discriminator network 3 begins. In a subsequent step S6, a quality C (Ti ..n ) corresponding to the current training state of the discriminator network 3 is determined for one or more predetermined training images Ti ..n in the second display style and from this in step S7 the deviation measure l D (T n ) determines: l D (T) = MSE {C (X), B T ) or l D (T) = BCE {C (X), B T )
Weiterhin wird in Schritt S8 für ein oder mehrere zuletzt generierte Ausgangsbilder A-i. m entsprechend eine Güte C(Ai..m) ermittelt und daraus in Schritt S9 das bzw. die Abweichungsmaße Zß(Ai..m) bestimmt: lD (71) MSE{ Dg 04), Ba) bzw. lD (71) BCE{ Dg (71), BA) Furthermore, in step S8, one or more last-generated output images Ai . m corresponding to a quality C (Ai ..m) is determined and from it in step S9, the dimensions or the deviation Z ß (Ai .. m) determined: D l (71) MSE {Dg 04), B a) and l D (71) BCE {Dg (71), B A )
In einem nächsten Schritt S10 wird ein Diskriminatorfehlerwert DF beispielsweise entsprechend folgender Formel ermittelt: In a next step S10, a discriminator error value DF is determined, for example, according to the following formula:
Basierend auf dem Diskriminatorfehlerwert DF kann in Schritt S1 1 ein Lernschritt für das zweite neuronale Netz des Diskriminatornetzwerks 3 durchgeführt werden. Dadurch werden die Diskriminatorparameter 0D in einem Backpropagation- Verfahren entsprechend mithilfe der partiellen Ableitungen dDF/dQD aktualisiert. Based on the discriminator error value DF, a learning step for the second neural network of the discriminator network 3 may be performed in step S1 1. Characterized the Diskriminatorparameter be updated 0 D in a back propagation method by using the corresponding partial derivatives dDF / dQ D.
Selbstverständlich kann das Backpropagation-Verfahren auch nur basierend auf einem Trainingsbild T und/oder einem Ausgangsbild A durchgeführt werden. Zusätzlich können für das Trainieren des Diskriminatornetzwerks 3 nicht nur generierte Bilder in dem zweiten Darstellungsstil, sondern auch sonstige Trainingsbilder in dem ersten Darstellungsstil mit der Güte 0 (oder nahe 0) verwendet werden. Hierdurch erleichtert man es dem Diskriminator ggf. die Unterschiede zwischen beiden Domänen besser zu lernen. Of course, the backpropagation method can also be carried out only based on a training image T and / or an output image A. In addition, for training the discriminator network 3, not only generated images in the second display style but also other training images in the first presentation style of 0 (or near 0) may be used. This makes it easier for the discriminator, if necessary, to better learn the differences between the two domains.
Nun wird in Schritt S12 eine Abbruchbedingung überprüft. Ist die Abbruchbedingung nicht erfüllt (Alternative: Nein), wird das Verfahren mit Schritt S1 fortgesetzt, anderenfalls (Alternative: Ja) wird das Verfahren mit Schritt S13 fortgesetzt. Eine Abbruchbedingung kann beispielsweise das Erreichen einer Anzahl von Durchgängen sein oder das Erreichen eines vorbestimmten Diskriminatorfehlerwerts DF und/oder Generatorfehlerwerts GF, oder das Erreichen einer vorbestimmten Güte C(A) der vom Generatornetzwerk 2 generierten Ausgangsbilder A. Now, in step S12, an abort condition is checked. If the termination condition is not fulfilled (alternative: no), the method is continued with step S1, otherwise (alternative: yes) the method is continued with step S13. An abort condition can be, for example, the achievement of a number of passes or the achievement of a predetermined discriminator error value DF and / or generator error value GF, or the achievement of a predetermined quality C (A) of the output images A generated by the generator network 2.
Der Schritt S13 stellt nun das Generatornetzwerk 2 als System zur Umsetzung eines Eingangsbildes E eines ersten Darstellungsstils bzw. einer ersten Domäne in ein Ausgangsbild A eines zweiten Darstellungsstils bzw. einer zweiten Domäne dar. The step S13 now represents the generator network 2 as a system for converting an input image E of a first presentation style or a first domain into an output image A of a second presentation style or a second domain.
Das oben beschriebene Verfahren kann in vielfältiger Weise modifiziert werden. So ist es möglich, dass die Diskriminatorparameter 0D und Generatorparameter 0G nur unter bestimmten Bedingungen aktualisiert werden, z. B. abhängig von dem aktuellen Diskriminatorfehlerwert DF zum Training des Diskriminatornetzwerks 3 bzw. des Generatorfehlerwerts GF zum Training des Generatornetzwerks 2. Auch die Größe der Batches für das Training des Diskriminatornetzwerks 3 oder des Generatornetzwerks 2 kann variiert werden. The method described above can be modified in many ways. Thus it is possible that the discriminator parameters 0D and generator parameters 0G are only updated under certain conditions, e.g. B. depending on the current discriminator error value DF for training the discriminator network 3 and the generator error value GF for training the generator network 2. The size of the batches for the training of the discriminator network 3 or the generator network 2 can be varied.
Weiterhin kann bei der Diskriminatorfehlerfunktion DFK des Diskriminatornetzwerks 3 noch ein Eingangsbild-Abweichungsmaß additiv hinzugefügt werden, die eine Abweichung der Güte C des Eingangsbildes von einem Bewertungslabel BA für ein unechtes Bild, d. h. eines vom Generatornetzwerk generierten Ausgangsbildes A angibt. Dadurch kann die Stabilität des Trainings erhöht werden. Das trainierte Generatornetzwerk 2 kann dann dazu benutzt werden, aus Eingangsbildern E, die über eine Skript-basierte Beschreibung erstellt wurden, die z. B. Verkehrssituationen zeigen, Eingangsbilder E eines ersten Darstellungsstils zu erzeugen. Ist das Generatornetzwerk 2 basierend auf Bildern des ersten Darstellungsstils und photorealistischen Bildern von Verkehrssituationen trainiert worden, so lassen sich den künstlich erzeugten Eingangsbildern E photorealistische Bilder zuordnen, die eine entsprechende Verkehrssituation darstellen. Dadurch können mithilfe des Generatornetzwerks 2 beliebig viele photorealistische Bilder erstellt werden, die gewünschte Verkehrssituationen abbilden. Furthermore, in the discriminator error function DFK of the discriminator network 3, an input image deviation measure which adds a deviation of the quality C of the input image from a rating label B A for a fake image, ie an output image A generated by the generator network, can still be additively added. This can increase the stability of the training. The trained generator network 2 can then be used to select from input images E created via a script-based description, e.g. B. Traffic situations show input images E to produce a first presentation style. If the generator network 2 has been trained based on images of the first representation style and photorealistic images of traffic situations, the artificially generated input images E can be assigned photorealistic images that represent a corresponding traffic situation. As a result, the generator network 2 can be used to create any number of photorealistic images that represent desired traffic situations.
Das Generatornetzwerk 2 lässt sich auch in umgekehrter Weise trainieren, um photorealistische Bilder in synthetische Bilder umzuwandeln, um beispielsweise Reflexionen oder Ähnliches aus den photorealistischen Bildern zu entfernen, wenn beispielsweise ein Klassifikator synthetische Bilder besser klassifizieren kann als photorealistische Bilder. The generator network 2 can also be trained in a reverse manner to convert photorealistic images into synthetic images, for example to remove reflections or the like from the photorealistic images, for example when a classifier can better classify synthetic images than photorealistic images.
Weiterhin kann das obige System auch so trainiert werden, um aus photorealistischen Bildern segmentierte Bilder zu erstellen, wobei in diesem Fall die photorealistischen Bilder dem ersten Darstellungsstil entsprechen und die segmentierten Bilder den Bildern des zweiten Darstellungsstils. Furthermore, the above system may also be trained to create segmented images from photorealistic images, in which case the photorealistic images correspond to the first style of presentation and the segmented images to the images of the second style of presentation.

Claims

Ansprüche claims
1. Verfahren zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes (E) einer ersten Domäne in ein Ausgangsbild (A) einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern (E) der ersten Domäne und Trainingsbildern (T) der zweiten Domäne durchgeführt wird; mit folgenden Schritten: A method of training a first neural network to convert an input image (E) of a first domain to an output image (A) of a second domain, the training comprising training images (E) of the first domain and training images (T) provided for the training second domain is performed; with the following steps:
Bereitstellen eines GAN-Netzwerks mit einem Generatornetzwerk (2), das das erste neuronale Netz umfasst, und einem Diskriminatornetzwerk (3), das ein zweites neuronales Netz umfasst;  Providing a GAN network having a generator network (2) comprising the first neural network and a discriminator network (3) comprising a second neural network;
Trainieren des Diskriminatornetzwerks (3) basierend auf einem Diskriminatorfehlerwert (DF) und einem oder mehreren Trainingsbildern (T) und/oder einem oder mehreren Ausgangsbildern (A), die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk (2) erzeugt werden, wobei der Diskriminatorfehlerwert (DF) abhängig von einer jeweiligen Güte (C) des einen oder der mehreren T rainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird;  Training the discriminator network (3) based on a discriminator error value (DF) and one or more training images (T) and / or one or more output images (A) generated by processing one or more of the input images by the generator network (2) the discriminator error value (DF) is determined depending on a respective quality (C) of the one or more contour images (T) and / or the one or more output images;
Trainieren des ersten neuronalen Netzes des Generatornetzwerks (2) basierend auf einem für das Training bereitgestellten Eingangsbild (E) und einem Generatorfehlerwert (GF), der von einer Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einer Ähnlichkeitsgröße (S) zwischen dem Eingangsbild (E) und dem Ausgangsbild (A) abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.  Training the first neural network of the generator network (2) based on an input image (E) provided for training and a generator error value (GF) provided by a quality (C) of the generator network (2) dependent on the input image (E) Output image (A) and a similarity size (S) between the input image (E) and the output image (A) depends, indicating a measure of a structural similarity.
2. Verfahren nach Anspruch 1 , wobei das Trainieren des Diskriminatornetzwerks (3) und des Generatornetzwerks (2) gleichzeitig oder wechselweise wiederholt durchgeführt wird, insbesondere mithilfe eines Backpropagation-Verfahrens, bis eine Abbruchbedingung erfüllt ist. 2. The method of claim 1, wherein the training of the discriminator network (3) and the generator network (2) is carried out simultaneously or alternately repeatedly, in particular by means of a backpropagation method, until an abort condition is met.
3. Verfahren nach Anspruch 2, wobei die Abbruchbedingung erfüllt ist, wenn eine Anzahl von Durchgängen oder eine vorbestimmte Güte (C) der vom Generatornetzwerk (2) generierten Ausgangsbilder erreicht ist. 3. The method of claim 2, wherein the termination condition is satisfied when a number of passes or a predetermined goodness (C) of the generator network (2) generated output images is reached.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Güte (C) des einen oder der mehreren Trainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder (A) jeweils durch das Diskriminatornetzwerk (3) bestimmt wird und einer Bewertung entspricht, in welchem Maß es sich bei dem betreffenden Bild um ein Bild der zweiten Domäne handelt. A method according to any of claims 1 to 3, wherein the quality (C) of the one or more training images (T) and / or the one or more output images (A) is determined by the discriminator network (3) and a rating, respectively corresponds to the extent to which the image in question is a picture of the second domain.
5. Verfahren nach Anspruch 4, wobei der Diskriminatorfehlerwert (DF) abhängig von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des betreffenden einen oder der betreffenden mehreren Trainingsbilder (T) und einem Bewertungslabel, das eine jeweilige Zugehörigkeit des einen oder der mehreren Trainingsbilder (T) zu der zweiten Domäne angibt, und/oder abhängig von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des einen oder der mehreren Ausgangsbilder (A) und einem Bewertungslabel (B), das ein von dem Generatornetzwerk (2) generiertes Ausgangsbild als ein nicht der zweiten Domäne zugehöriges Bild angibt, bestimmt wird, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht. 5. The method according to claim 4, wherein the discriminator error value depends on a respective deviation measure for the deviation between the respective quality of the respective one or more training images and a rating label that has a respective affiliation of the one or more training images the plurality of training images (T) to the second domain, and / or depending on a respective deviation measure for the deviation between the respective quality (C) of the one or more output images (A) and a rating label (B), one of the Generator network (2) generated output image as a not the second domain associated image indicating is determined, wherein the deviation measure in particular corresponds to a mean squared error or a binary cross entropy.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Ähnlichkeitsgröße von einem SSIM-Index für eine strukturelle Ähnlichkeit zwischen einem der Eingangsbilder und einem durch das Generatornetzwerk aus dem betreffenden Eingangsbild generierten Ausgangsbild abhängt oder diesem entspricht. 6. The method of claim 1, wherein the similarity quantity is dependent on or corresponds to an SSIM index for a structural similarity between one of the input images and an output image generated by the generator network from the respective input image.
7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das erste und/oder das zweite neuronale Netz als faltende neuronale Netze (convolutional neural networks) ausgebildet sind, wobei insbesondere das erste und/oder das zweite neuronale Netz eine Hintereinanderschaltung von einigen Convolutional Layer- Blöcken, einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken aufweisen, wobei insbesondere jeder der Blöcke als eine Aktivierungsfunktionen eine ReLU-, leaky-ReLU-, tanh- oder Sigmoid-Funktion enthält. 7. The method according to any one of claims 1 to 6, wherein the first and / or the second neural network as folding neural networks (convolutional neural networks) are formed, in particular the first and / or the second neural network a series connection of some convolutional layer In particular, each of the blocks contains, as an activation function, a ReLU, leaky-ReLU, tanh, or sigmoid function - blocks, some ResNet blocks, and a few Deconvolutional blocks.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Generatorfehlerwert (GF) von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einem Bewertungslabel (B), das ein Bild der zweiten Domäne angibt, abhängt, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht. 8. The method according to any one of claims 1 to 7, wherein the generator error value (GF) of a respective deviation measure for the deviation between the respective quality (C) of the output image (A) provided by the generator network (2) as a function of the input image (E) and a rating label (B) indicating an image of the second domain, wherein the deviation measure is in particular a mean squared error or corresponds to a binary cross entropy.
9. Verfahren nach einem der Ansprüche 1 bis 8, wobei das Training des Diskriminatornetzwerks und/oder des Generatornetzwerks nur dann durchgeführt wird, wenn eine von dem aktuellen Diskriminatorfehlerwert (DF) und/oder von dem Generatorfehlerwert (GF) abhängige Bedingung erfüllt ist. 9. The method according to any one of claims 1 to 8, wherein the training of the discriminator network and / or the generator network is performed only if one of the current discriminator error value (DF) and / or the generator error value (GF) dependent condition is met.
10. Verfahren zum Bereitstellen einer Steuerung für ein technisches System, insbesondere für einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine, wobei das Verfahren zum Trainieren eines ersten neuronalen Netzes nach einem der Ansprüche 1 bis 9 ausgeführt wird, wobei das trainierte erste neuronale Netz verwendet wird, um Trainingsbilder zu erzeugen, mit denen die Steuerung, die insbesondere ein neuronales Netz enthält, trainiert wird. 10. A method for providing control for a technical system, in particular for a robot, a vehicle, a tool or a factory machine, wherein the method for training a first neural network is carried out according to one of claims 1 to 9, wherein the trained first neural Network is used to generate training images with which the control, which in particular contains a neural network, is trained.
1 1. Verfahren nach Anspruch 10, wobei das technische System mithilfe der Steuerung betrieben wird. 1 1. The method of claim 10, wherein the technical system is operated by the controller.
12. Verwenden eines ersten neuronalen Netzes, das entsprechend einem Verfahren nach einem der Ansprüche 1 bis 9 trainiert ist, zum Generieren von photorealistischen Ausgangsbildern in einer zweiten Domäne abhängig von vorgegebenen Eingangsbildern (E) in einer ersten Domäne, die insbesondere über eine Skript-basierte Beschreibung erstellt werden 12. Use of a first neural network, which is trained according to a method according to one of claims 1 to 9, for generating photorealistic output images in a second domain depending on predetermined input images (E) in a first domain, in particular via a script-based Description to be created
13. Verwendung nach Anspruch 12, wobei die erzeugten photorealistischen Ausgangsbilder (A) als künstliche Kamerabilder zum Herstellen eines Klassifikators für Umgebungssituationen verwendet werden. 13. Use according to claim 12, wherein the generated photorealistic output images (A) are used as artificial camera images for producing a classifier for environmental situations.
14. GAN-Netzwerk zum T rainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes (E) einer ersten Domäne in ein Ausgangsbild (A) einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern (E) der ersten Domäne und Trainingsbildern (T) der zweiten Domäne durchgeführt wird, wobei das GAN-Netzwerk ein Generatornetzwerk (2), das das erste neuronale Netz umfasst, und ein Diskriminatornetzwerk (3) aufweist, das ein zweites neuronales Netz umfasst, wobei das GAN-Netzwerk ausgebildet ist, um 14. A GAN network for destroying a first neural network for converting an input image (E) of a first domain into an output image (A) of a second domain, wherein the training is based on input images (E) of the first domain and training images ( T) of the second domain, the GAN network comprising a generator network (2) comprising the first neural network and a discriminator network (3) comprising a second neural network, wherein the GAN network is configured to
das Diskriminatornetzwerk (3) basierend auf einem Diskriminatorfehlerwert (DF) und einem oder mehreren Trainingsbildern (T) und/oder einem oder mehreren Ausgangsbildern (A), die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk (2) erzeugt werden, zu trainieren, wobei der Diskriminatorfehlerwert (DF) abhängig von einer jeweiligen Güte (C) des einen oder der mehreren T rainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird; und das Generatornetzwerk (2) basierend auf einem für das Training bereitgestellten Eingangsbild (E) und einem Generatorfehlerwert (GF) zu trainieren, der von einer Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einer Ähnlichkeitsgröße (S) zwischen dem Eingangsbild (E) und dem Ausgangsbild (A) abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.  to train the discriminator network (3) based on a discriminator error value (DF) and one or more training images (T) and / or one or more output images (A) generated by processing one or more of the input images by the generator network (2) wherein the discriminator error value (DF) is determined depending on a respective goodness (C) of the one or more contour images (T) and / or the one or more output images; and to train the generator network (2) based on an input image (E) provided for the training and a generator error value (GF), which depends on a quality (C) of the output image provided by the generator network (2) ( A) and a similarity quantity (S) between the input image (E) and the output image (A), indicating a measure of structural similarity.
15. Computerprogramm mit Programmcodemitteln, das dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Computerprogramm auf einer Recheneinheit, insbesondere einer mobilen Recheneinheit, ausgeführt wird.  15. Computer program with program code means, which is adapted to carry out a method according to one of claims 1 to 9, when the computer program is executed on a computing unit, in particular a mobile computing unit.
16. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 15. 16. A machine-readable storage medium with a computer program stored thereon according to claim 15.
EP19721223.6A 2018-04-23 2019-04-18 Method and device for converting an input image of a first domain into an output image of a second domain Pending EP3785169A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018206199 2018-04-23
DE102018206806.2A DE102018206806A1 (en) 2018-04-23 2018-05-03 Method and device for converting an input image of a first domain into an output image of a second domain
PCT/EP2019/060047 WO2019206792A1 (en) 2018-04-23 2019-04-18 Method and device for converting an input image of a first domain into an output image of a second domain

Publications (1)

Publication Number Publication Date
EP3785169A1 true EP3785169A1 (en) 2021-03-03

Family

ID=68105256

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19721223.6A Pending EP3785169A1 (en) 2018-04-23 2019-04-18 Method and device for converting an input image of a first domain into an output image of a second domain

Country Status (3)

Country Link
EP (1) EP3785169A1 (en)
DE (1) DE102018206806A1 (en)
WO (1) WO2019206792A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7046786B2 (en) * 2018-12-11 2022-04-04 株式会社日立製作所 Machine learning systems, domain converters, and machine learning methods
US11745749B2 (en) * 2019-12-30 2023-09-05 Magna Electronics Inc. Vehicular system for testing performance of object detection algorithms
US11690579B2 (en) * 2020-06-16 2023-07-04 Shanghai United Imaging Intelligence Co., Ltd. Attention-driven image domain translation
DE102021200374A1 (en) 2021-01-15 2022-07-21 Volkswagen Aktiengesellschaft Digital representation of a material

Also Published As

Publication number Publication date
DE102018206806A1 (en) 2019-10-24
WO2019206792A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
WO2019206792A1 (en) Method and device for converting an input image of a first domain into an output image of a second domain
DE102019202090A1 (en) A method of generating a training data set for training an artificial intelligence module for a controller of a robot
EP3393875B1 (en) Method for the improved detection of objects by a driver assistance system
DE102019209644A1 (en) Method for training a neural network
DE102019216206A1 (en) Device and method for determining a U-turn strategy of an autonomous vehicle
WO2020051618A1 (en) Analysis of dynamic spatial scenarios
WO2020048669A1 (en) Method for determining a lane change indication of a vehicle, computer-readable storage medium, and vehicle
WO2019110177A1 (en) Training and operating a machine learning system
DE102018130004B3 (en) INTELLIGENT DRIVING BASED ON A SUPPORT VECTOR MACHINE FOR PASSING CROSSROADS AND INTELLIGENT DRIVING SYSTEM THEREFOR
DE102019208733A1 (en) Method and generator for generating disturbed input data for a neural network
DE102019105850A1 (en) Method for generating a reduced neural network for a control device of a vehicle by means of eigenvectors
EP3748453B1 (en) Method and device for automatically executing a control function of a vehicle
EP3748454B1 (en) Method and device for automatically executing a control function of a vehicle
DE102018129871A1 (en) Train a deep convolutional neural network to process sensor data for use in a driving support system
DE102019208735A1 (en) Method for operating a driver assistance system for a vehicle and a driver assistance system for a vehicle
DE102019217951A1 (en) Method and apparatus for determining a domain distance between at least two data domains
EP3772017A1 (en) Rail signal detection for autonomous railway vehicles
DE102019217952A1 (en) Method and device for providing a training data set for training an AI function on an unknown data domain
DE102020211596A1 (en) Method for generating a trained neural convolution network with an invariant integration layer for classifying objects
DE102020109364A1 (en) Method and device for determining and classifying at least one object in a detection area of a sensor
DE102020105070A1 (en) Method for recognizing a drivable area in the surroundings of a vehicle with the aid of a binary artificial neural network, computing device and driver assistance system
DE102019114049A1 (en) Method for validating a driver assistance system using further generated test input data sets
DE102021208472B3 (en) Computer-implemented method for training a machine learning model for a vehicle or robot
DE102021133977A1 (en) Method and system for classifying virtual test scenarios and training methods
EP4202779A1 (en) Method and system for classification of scenarios of a virtual test and training method

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20201123

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20221215