DE102020215698A1 - Synthetic creation of images with given semantic content - Google Patents

Synthetic creation of images with given semantic content Download PDF

Info

Publication number
DE102020215698A1
DE102020215698A1 DE102020215698.0A DE102020215698A DE102020215698A1 DE 102020215698 A1 DE102020215698 A1 DE 102020215698A1 DE 102020215698 A DE102020215698 A DE 102020215698A DE 102020215698 A1 DE102020215698 A1 DE 102020215698A1
Authority
DE
Germany
Prior art keywords
target
image
training
semantic
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020215698.0A
Other languages
German (de)
Inventor
Prateek Katiyar
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020215698.0A priority Critical patent/DE102020215698A1/en
Publication of DE102020215698A1 publication Critical patent/DE102020215698A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (100) zum Transformieren eines gegebenen Quellenbilds (1) in ein Zielbild (4) mit einem gegebenen semantischen Zielinhalt, das die folgenden Schritte umfasst:• Abbilden (110), unter Verwendung eines ersten trainierten Maschinenlernmodells (10), einer Kombination des Quellenbilds (1) und einer Angabe (2) des semantischen Zielinhalts auf eine Zielsemantikmaske (3), wobei diese Zielsemantikmaske (3)o für jedes Pixel des Zielbilds (4) eine semantische Bedeutung dieses Pixels in einem gegebenen Kontext, in dem das Zielbild (4) zu verwenden ist, angibt undo mit der Angabe (2) des semantischen Zielinhalts übereinstimmt; und• Erzeugen (120), aus der Zielsemantikmaske (3), des Zielbilds (4).A method (100) for transforming a given source image (1) into a target image (4) with a given target semantic content, comprising the steps of:• mapping (110), using a first trained machine learning model (10), a combination of the source image (1) and an indication (2) of the semantic target content on a target semantic mask (3), this target semantic mask (3)o for each pixel of the target image (4) a semantic meaning of this pixel in a given context in which the target image (4 ) is to be used, undo matches the specification (2) of the target semantic content; and• generating (120) from the target semantic mask (3) the target image (4).

Description

Die vorliegende Erfindung betrifft die synthetische Erzeugung von Bildern, die unter anderem als Trainingsbilder für Bildklassifizierer verwendet werden können.The present invention relates to the synthetic generation of images that can be used, inter alia, as training images for image classifiers.

Hintergrundbackground

Viele Systeme zum zumindest teilweise automatisierten Fahren eines Fahrzeugs im Straßenverkehr beruhen auf Bildern der Umgebung des Fahrzeugs als ihre primäre Informationsquelle. Aufgenommene Bilder werden in der Regel einem Bildklassifizierer zugeführt, der sie auf Vorhandensein verkehrsrelevanter Objekte, wie etwa andere Fahrzeuge, Straßenschilder, Straßenmarkierungen oder Hindernisse, analysiert. Basierend auf dem Ergebnis dieser Analyse wird das Verhalten des Fahrzeugs für die nahe Zukunft geplant.Many systems for at least partially automated driving of a vehicle on the road are based on images of the vehicle's surroundings as their primary source of information. Recorded images are generally fed to an image classifier, which analyzes them for the presence of traffic-relevant objects, such as other vehicles, road signs, road markings, or obstacles. Based on the result of this analysis, the behavior of the vehicle is planned for the near future.

Derartige Bildklassifizierer umfassen in der Regel trainierte Maschinenlernmodelle, die eine große Generalisierungsfähigkeit besitzen. Nachdem sie mit einer endlichen Menge an Trainingssituationen trainiert worden sind, sind Klassifizierer mit Maschinenlernmodellen in der Lage, nicht nur mit den Trainingssituationen, sondern auch mit einer Vielzahl ungesehener Situationen korrekt umzugehen. Wird beispielsweise ein neues Automodell mit einem neuen Design eingeführt, so wird dies noch immer als ein Auto klassifiziert.Such image classifiers usually include trained machine learning models that have a high generalization ability. After being trained with a finite set of training situations, classifiers with machine learning models are able to deal correctly not only with the training situations, but also with a variety of unseen situations. For example, if a new car model with a new design is introduced, it is still classified as a car.

Trainingsbilder sind eine rare und kostspielige Ressource. Es muss ein gewisser Grad an Variabilität in dem Satz von Trainingsbildern vorliegen, weshalb Trainingsbilder auf langen Testfahrten erfasst werden müssen. Derartige Testfahrten müssen die verschiedenen Bedingungen (wie etwa Jahreszeiten, Wetterbedingungen und Arten von Verkehrssituationen), denen das Fahrzeug voraussichtlich ausgesetzt wird, hinreichend abdecken. Darüber hinaus müssen Trainingsbilder mit „Ground Truth“ gekennzeichnet werden, wie etwa die Objekte, die in dem Trainingsbild tatsächlich vorhanden sind. Dies bringt eine große Menge Handarbeit mit sich.Training images are a rare and expensive resource. There needs to be some degree of variability in the set of training images, which is why training images need to be captured on long test drives. Such test drives must adequately cover the various conditions (such as seasons, weather conditions, and types of traffic situations) to which the vehicle is likely to be subjected. In addition, training images must be tagged with ground truth, such as the objects that actually exist in the training image. This involves a large amount of manual work.

Um die Notwendigkeit einer Kennzeichnung von Hand zu reduzieren, offenbart DE 10 2018 204 494 B3 ein Verfahren zur synthetischen Erzeugung von Radarsignalen.To reduce the need for hand labeling, disclosed DE 10 2018 204 494 B3 a method for the synthetic generation of radar signals.

Offenbarung der ErfindungDisclosure of Invention

Die Erfindung stellt ein Verfahren zum Transformieren eines gegebenen Quellenbilds in ein Zielbild mit einem gegebenen semantischen Zielinhalt bereit.The invention provides a method for transforming a given source image into a target image with a given target semantic content.

Der Begriff „Bild“ bedeutet insbesondere jegliche räumlich aufgelöste Repräsentation mindestens einer physischen Eigenschaft in einem zweidimensionalen oder dreidimensionalen Gitter. Bei einer derartigen physischen Eigenschaft kann es sich beispielsweise um die Intensität elektromagnetischer Strahlung, die auf einem Sensor auftrifft, handeln. Bei Bildern kann es sich beispielsweise um Kamerabilder, Videobilder, Radarbilder, LIDAR-Bilder, Ultraschallbilder und/oder Wärmebilder handeln.The term "image" means in particular any spatially resolved representation of at least one physical property in a two-dimensional or three-dimensional grid. Such a physical property can be, for example, the intensity of electromagnetic radiation impinging on a sensor. Images can be camera images, video images, radar images, LIDAR images, ultrasound images and/or thermal images, for example.

Der semantische Inhalt eines Bilds ist die Bedeutung des Bilds oder von Teilen davon innerhalb des Kontexts der vorliegenden Anwendung. Ein Bild kann mit einer Semantikmaske verknüpft sein, die für jedes Pixel des Bilds die semantische Bedeutung dieses speziellen Pixels angibt. Im Kontext einer Bildklassifizierung kann zum Beispiel die semantische Bedeutung eines Pixels eine Zielklasse angeben, der ein das Pixel einnehmendes Objekt angehört.The semantic content of an image is the meaning of the image or parts of it within the context of the present application. An image may be associated with a semantic mask that specifies, for each pixel of the image, the semantic meaning of that particular pixel. For example, in the context of an image classification, the semantic meaning of a pixel may indicate a target class to which an object occupying the pixel belongs.

Im Laufe des Verfahrens wird eine Kombination des Quellenbilds und einer Angabe des semantischen Zielinhalts auf eine Zielsemantikmaske abgebildet. Diese Zielsemantikmaske gibt für jedes Pixel im Zielbild eine semantische Bedeutung dieses Pixels in einem gegebenen Kontext, in dem das Zielbild zu verwenden ist, an. Die Zielsemantikmaske stimmt außerdem mit der Angabe des semantischen Zielinhalts überein.During the process, a combination of the source image and an indication of the target semantic content is mapped to a target semantic mask. This target semantic mask specifies, for each pixel in the target image, a semantic meaning of that pixel in a given context in which the target image is to be used. The target semantic mask also matches the specification of the target semantic content.

Dies bedeutet, dass die Zielsemantikmaske unter der Bedingung erhalten wird, dass sie mit der Angabe des semantischen Zielinhalts übereinstimmt. Um diese Bedingung zu erfüllen, kann der Prozess des Erhaltens der Zielsemantikmaske direkt an der Angabe des semantischen Zielinhalts konditioniert werden. Es ist jedoch auch möglich, beispielsweise mehrere Kandidatenzielsemantikmasken zu erhalten und aus diesen Zielsemantikmasken eine Zielsemantikmaske auszuwählen, die mit der Angabe des semantischen Zielinhalts am besten übereinstimmt.This means that the target semantic mask is obtained on the condition that it matches the specification of the target semantic content. To satisfy this condition, the process of obtaining the target semantic mask can be conditioned directly on specifying the target semantic content. However, it is also possible, for example, to obtain a plurality of candidate target semantic masks and to select a target semantic mask from these target semantic masks that best matches the specification of the target semantic content.

Der Begriff „Maschinenlernmodell“ umfasst insbesondere eine Funktion, die eine große Generalisierungsfähigkeit besitzt und deren Verhalten durch eine Menge trainierbarer Parameter gekennzeichnet ist. Insbesondere kann ein Maschinenlernmodell ein oder mehrere neuronale Netze umfassen oder ein derartiges neuronales Netz sein.The term "machine learning model" includes in particular a function that has a high generalization ability and whose behavior is characterized by a number of trainable parameters. In particular, a machine learning model can include one or more neural networks or be such a neural network.

Aus der Zielsemantikmaske wird das Zielbild erzeugt. Dieser Schritt kann unter Verwendung eines beliebigen geeigneten Bildsyntheseverfahrens des Stands der Technik durchgeführt werden.The target image is generated from the target semantic mask. This step can be performed using any suitable imaging method known in the art.

Es hat sich herausgestellt, dass die vorliegende Gesamtaufgabe, nämlich das Abbilden der Kombination des Quellenbilds und der Angabe des semantischen Zielinhalts auf das gesuchte Zielbild mit dem gegebenen semantischen Inhalt, sehr komplex ist. Soll ein Modell zur Bewältigung dieser Aufgabe trainiert werden, so muss es zwei Aufgaben gleichzeitig lernen: Einerseits muss es die Beziehung zwischen semantischen Bedeutungen im Quellenbild und den semantischen Bedeutungen, die im Zielbild vorliegen sollen, erlernen. Andererseits muss es lernen, wie semantische Zielbedeutungen im Zielbild gerendert werden sollen. Angesichts eines derartigen schwierigen Multitaskproblems tendieren Maschinenlernmodelle dazu, wenn möglich „Abkürzungen zu nehmen“ und mit einer gewissen Voreingenommenheit zugunsten von Kombinationen von Quellenbildern und Angaben von semantischem Zielinhalt, die in den Trainingsdaten auftreten, zu lernen.It has been found that the overall task at hand, namely mapping the combination of the source image and specifying the semantic target content to the desired target image with the given semantic content is very complex. If a model is to be trained to cope with this task, it has to learn two tasks at the same time: On the one hand, it has to learn the relationship between the semantic meanings in the source image and the semantic meanings that should be present in the target image. On the other hand, it must learn how to render semantic target meanings in the target image. Faced with such a difficult multitask problem, machine learning models tend to “take shortcuts” when possible and learn with a certain bias in favor of combinations of source images and indications of target semantic content occurring in the training data.

Gemäß der Erfindung werden die zwei Aufgaben separat und nacheinander bewältigt. Das erste Maschinenlernmodell muss lediglich die Beziehung zwischen semantischen Bedeutungen im Quellenbild und semantischen Bedeutungen im Zielbild erlernen. Wird ein zweites Maschinenlernmodell zum Erzeugen des Zielbilds aus der Zielsemantikmaske verwendet, so kann sich dieses Maschinenlernmodell ausschließlich darauf konzentrieren, zu lernen, wie gegebene semantische Bedeutungen im Zielbild gerendert werden sollen.According to the invention, the two tasks are accomplished separately and sequentially. The first machine learning model only needs to learn the relationship between semantic meanings in the source image and semantic meanings in the target image. If a second machine learning model is used to generate the target image from the target semantic mask, then this machine learning model can focus solely on learning how given semantic meanings should be rendered in the target image.

Dieser Ansatz ist teilweise vergleichbar mit der Kryptoanalyse. Ist ein kryptografischer Algorithmus stark, besteht die einzige Möglichkeit, den Schlüssel zu einer gegebenen Nachricht zu erhalten, darin, alle möglichen Schlüssel auszuprobieren, bis der richtige gefunden wurde. Ist der Schlüsselraum groß genug, kann dies undurchführbar sein. Wird durch Kryptoanalyse jedoch eine Möglichkeit gefunden, die Aufgabe aufzuteilen, sodass ein gewisser Anteil des Schlüssels getrennt von dem Rest berechnet werden kann, so ist das Auffinden des gesamten Schlüssels mit drastisch reduziertem Zeitaufwand möglich. Wird es zum Beispiel möglich, zunächst die korrekten ersten 10 Bit eines 256-Bit-Binärschlüssels zu berechnen und dann die restlichen 246 Bit zu berechnen, wird die zum Auffinden des gesamten Schlüssels benötigte Gesamtzeit um einen Faktor von 1024 verringert.This approach is partly comparable to cryptanalysis. If a cryptographic algorithm is strong, the only way to get the key to a given message is to try all possible keys until the right one is found. If the key space is large enough, this may be impractical. However, if cryptanalysis finds a way to split the task so that some portion of the key can be computed separately from the rest, finding the entire key can be done in drastically reduced time. For example, if it is possible to first calculate the correct first 10 bits of a 256-bit binary key and then calculate the remaining 246 bits, the total time required to find the entire key is reduced by a factor of 1024.

Außerdem gestattet der Ansatz eine Wiederverwendung von Komponenten, die bereits verfügbar sind, wenn sich lediglich ein Teil der Gesamtaufgabe ändert. Ändert sich beispielsweise nur die Domäne der Quellenbilder, dann muss lediglich das erste Maschinenlernmodell umtrainiert werden. Es kann aber weiterhin dasselbe weitere Maschinenlernmodell, bzw. dieselbe sonstige Funktion oder Technik, verwendet werden, das bzw. die zuvor für den Schritt von der Zielsemantikmaske zum Zielbild verwendet wurde. Gleichermaßen kann, wenn sich nur die Domäne des Zielbilds ändert und die durch die Zielsemantikabbildung gegebenen Merkmale somit im Zielbild anders gerendert werden müssen, das erste Maschinenlernmodell unverändert bleiben. Lediglich die Bildsynthese von der Zielsemantikabbildung zum Zielbild muss geändert werden.In addition, the approach allows reuse of components that are already available if only part of the overall task changes. For example, if only the domain of the source images changes, then only the first machine learning model needs to be retrained. However, the same further machine learning model or other function or technique that was previously used for the step from target semantic mask to target image can still be used. Likewise, if only the domain of the target image changes and the features given by the target semantic mapping thus need to be rendered differently in the target image, the first machine learning model can remain unchanged. Only the image synthesis from the target semantic mapping to the target image has to be changed.

Darüber hinaus wird die Aufgabe des ersten Maschinenlernmodells weitaus einfacher, da die Dimensionalität der gesuchten Ausgabe viel geringer als die Dimensionalität des Zielbilds ist. Die Zielsemantikabbildung weist die gleiche Anzahl an Pixeln auf wie das Zielbild, wobei jedoch jedes Pixel nur eine sehr viel beschränktere Anzahl diskreter Werte aufweisen kann. Entsprechen beispielsweise die semantischen Bedeutungen Klassen von Objekten, so entspricht die Anzahl von Werten, die jedes Pixel aufweisen kann, der Anzahl von Klassen. Dagegen kann jedes Pixel eines Vollgraustufenbilds in der Regel mindestens 256 verschiedene Werte aufweisen, und ein Vollfarbbild kann 256 verschiedene Werte je Pixel je Farbkanal aufweisen.In addition, the task of the first machine learning model becomes far easier since the dimensionality of the output being sought is much less than the dimensionality of the target image. The target semantic map has the same number of pixels as the target image, but each pixel can only have a much more limited number of discrete values. For example, if the semantic meanings correspond to classes of objects, then the number of values each pixel can have corresponds to the number of classes. In contrast, each pixel of a full grayscale image can typically have at least 256 different values, and a full color image can have 256 different values per pixel per color channel.

Bei einer besonders vorteilhaften Ausführungsform ist das erste trainierte Maschinenlernmodell derart gewählt, dass es ein Generator eines konditionellen generativen Adversarial-Netzwerks, cGAN (conditional Generative Adversarial Network), ist. Dieses cGAN wird an dem semantischen Zielinhalt konditioniert. Dies gestattet die größte Flexibilität hinsichtlich der Form, in der die Angabe des semantischen Zielinhalts bereitgestellt werden kann. Die Verwendung des Verfahrens ist zum Beispiel besonders zweckdienlich, wenn die Angabe des semantischen Zielinhalts in Textform geliefert wird, wie etwa eine Bildbeschriftung in natürlicher Sprache. Bei einer derartigen Beschriftung kann es sich beispielsweise um „Die Seite eines Busses, der an der Seite einer Straße geparkt ist“ handeln. Unabhängig davon, ob die Angabe des semantischen Zielinhalts in dieser oder in beliebiger anderer Form bereitgestellt wird, bleibt die Grundarchitektur des cGAN die gleiche: Es handelt sich um ein Abbilden aus dem Raum von Quellenbildern auf den Raum von Zielsemantikmasken.In a particularly advantageous embodiment, the first trained machine learning model is chosen such that it is a generator of a conditional generative adversarial network, cGAN (conditional generative adversarial network). This cGAN is conditioned on the semantic target content. This allows the greatest flexibility in the form in which the indication of the target semantic content can be provided. For example, the use of the method is particularly useful when the indication of the target semantic content is provided in text form, such as a natural language caption for an image. Such a caption might be, for example, "The side of a bus parked at the side of a street." Regardless of whether the indication of the target semantic content is provided in this form or any other, the basic architecture of the cGAN remains the same: it is a mapping from the space of source images to the space of target semantic masks.

Wie zuvor erörtert kann ein zweites trainiertes Maschinenlernmodell verwendet werden, um das Zielbild aus der Zielsemantikmaske zu erzeugen. Auch dieses zweite trainierte Maschinenlernmodell kann derart gewählt sein, dass es ein Generator eines generativen Adversarial-Netzwerks ist. Dies erhöht die Wahrscheinlichkeit, dass das resultierende Zielbild realistisch ist: Während eines Adversarial-Trainings des Generators, wenn ein Diskriminator versucht, zwischen aus Zielsemantikmasken erzeugten Zielbildern einerseits und echten, physisch erfassten Bildern andererseits zu unterscheiden, werden nicht realistische durch den Diskriminator leicht identifiziert. Dies wird als Rückkopplung zur Verbesserung des Generators verwendet.As previously discussed, a second trained machine learning model can be used to generate the target image from the target semantic mask. This second trained machine learning model can also be selected in such a way that it is a generator of a generative adversarial network. This increases the likelihood that the resulting target image will be realistic: during adversarial training of the generator, when a discriminator attempts to distinguish between target images generated from target semantic masks on the one hand and real, physically captured images on the other hand, non-realistic ones are rendered non-realistic by the discriminana tor easily identified. This is used as feedback to improve the generator.

Bei einer besonders vorteilhaften Ausführungsform repräsentieren das Quellenbild und das Zielbild aus der Perspektive eines Fahrzeugs betrachtete Verkehrsszenen. Das Verfahren kann dann verwendet werden, um synthetische Bilder zu erstellen, die Verkehrsszenen mit einer willkürlichen semantischen Zusammenstellung zeigen. Derartige synthetische Bilder können zum Trainieren und/oder zum Testen eines Bildklassifizierers verwendet werden, dessen Ausgabe dann verwendet werden kann, um das Verhalten eines Fahrzeugs in naher Zukunft zu planen.In a particularly advantageous embodiment, the source image and the target image represent traffic scenes viewed from the perspective of a vehicle. The method can then be used to create synthetic images showing traffic scenes with an arbitrary semantic composition. Such synthetic images can be used to train and/or test an image classifier, the output of which can then be used to plan a vehicle's behavior in the near future.

Bei einer weiteren besonders vorteilhaften Ausführungsform wird der semantische Zielinhalt derart gewählt, dass er eine Verkehrsszene mit mindestens einer ungünstigen Wetterbedingung und/oder mit mindestens einer Situation, die eine Handlung mindestens eines Teilnehmers erfordert, um eine Kollision zu vermeiden, angibt. Insbesondere treten derartige gefährliche „Ausnahmefälle“ mit eventuell bevorstehender Kollision im Normalverkehr nur sehr selten auf, und ein bewusstes Hervorrufen derartiger Situation kann zu gefährlich sein. Dies bedeutet, dass Trainingsbilder derartiger Situationen besonders rar sind. Andererseits sind dies jedoch die Situationen, in denen ein fehlerfreies Funktionieren des Bildklassifizierers von größter Bedeutung ist. Mit dem hier präsentierten Verfahren lässt sich eine willkürliche Menge von Trainingsbildern für alle Arten von Verkehrssituationen erstellen.In a further particularly advantageous embodiment, the semantic target content is selected in such a way that it specifies a traffic scene with at least one adverse weather condition and/or with at least one situation that requires action by at least one participant in order to avoid a collision. In particular, such dangerous “exceptional cases” with a possible imminent collision occur only very rarely in normal traffic, and deliberately creating such a situation can be too dangerous. This means that training images of such situations are particularly rare. On the other hand, however, these are the situations where correct functioning of the image classifier is of the greatest importance. With the method presented here, an arbitrary set of training images can be created for all types of traffic situations.

Selbst wenn extreme Ausnahmefälle außer Acht gelassen werden, gibt es Situationen, die während des normalen Fahrens im Verkehr selten auftreten, mit denen jedoch bei jedem Auftreten korrekt umgegangen werden muss. Beispielsweise tritt ein Warnzeichen, dass die Straße zu einem Hafen- oder Flussufer führt, weitaus seltener auf als Vorfahrtszeichen oder Geschwindigkeitsbegrenzungszeichen, jedoch muss dieses Warnzeichen bei jedem Auftreten beachtet werden, ansonsten fährt das Fahrzeug möglicherweise ins Wasser.Even disregarding extreme exceptional cases, there are situations that rarely arise during normal driving in traffic, but which must be dealt with correctly whenever they occur. For example, a warning sign that the road leads to a harbor or river bank occurs far less frequently than give way signs or speed limit signs, but this warning sign must be heeded whenever it occurs, otherwise the vehicle may enter the water.

Ungünstige Wetterbedingungen stellen ein weiteres Beispiel dar. Je nach Standort können sie recht selten auftreten, jedoch sind sie, wenn sie dann auftreten, nicht leichter zu bewältigen. Zwei Beispiele sind schwerer Schneefall und Glatteis. Im zentraleuropäischen Flachland sind beide in den letzten Jahren zu einem zunehmend ungewohnten Anblick geworden, weshalb die Beschaffung von Trainingsbildern von Verkehrssituationen unter diesen Bedingungen schwierig ist. Ein gutes Training muss jedoch auch diese Bedingungen abdecken, damit sich ein zumindest teilweise automatisiertes Fahrzeug in einer derartigen Situation korrekt verhält. Jedes Auftreten von schwerem Schneefall und Glatteis zeigt Folgendes: Recht viele menschliche Fahrer haben keine Gelegenheit gehabt, ihre neuronalen Netze unter derartigen Schwerwetterbedingungen zu trainieren, und sind durch die Situation schnell überfordert.Adverse weather conditions are another example. Depending on the location, they can be quite rare, but when they do occur, they are no easier to deal with. Two examples are heavy snowfall and black ice. In the Central European lowlands, both have become an increasingly unfamiliar sight in recent years, which is why it is difficult to obtain training images of traffic situations under these conditions. However, good training must also cover these conditions in order for an at least partially automated vehicle to behave correctly in such a situation. Every occurrence of heavy snowfall and black ice demonstrates the following: quite a few human drivers have not had the opportunity to train their neural networks in such heavy weather conditions and quickly become overwhelmed by the situation.

Zur Unterstützung des Trainings eines Bildklassifizierers wird das Zielbild dem Bildklassifizierer als ein Trainingsbild zugeführt. Die Angabe des semantischen Zielinhalts wird als Ground Truth für das überwachte Training des Bildklassifizierers verwendet. Beispielsweise kann mit einer Verlustfunktion bewertet werden, wie gut der Bildklassifizierer das Zielbild auf den semantischen Zielinhalt abbildet.To support the training of an image classifier, the target image is supplied to the image classifier as a training image. The specification of the target semantic content is used as ground truth for the supervised training of the image classifier. For example, a loss function can be used to evaluate how well the image classifier maps the target image to the semantic target content.

Zur Unterstützung des Testens eines Bildklassifizierers wird das Zielbild dem Bildklassifizierer als ein Testbild zugeführt und der semantische Zielinhalt wird als Ground Truth für den Test verwendet. Beispielsweise beurteilt eine Klassifizierungsgenauigkeit während des Testens kann davon abhängig sein, wie gut der Bildklassifizierer das Bild auf den semantischen Zielinhalt abbildet.To support testing of an image classifier, the target image is supplied to the image classifier as a test image and the target semantic content is used as ground truth for the test. For example, classification accuracy judged during testing may depend on how well the image classifier maps the image to the target semantic content.

Bei einer weiteren besonders vorteilhaften Ausführungsform ist der Bildklassifizierer dazu konfiguriert, Verkehrszeichen in Verkehrsszenen zu klassifizieren. Der Zweck des Trainings, das an dem Bildklassifizierer durchgeführt wird, ist es, diesen dahingehend zu trainieren oder umzutrainieren, ein neu eingeführtes Verkehrszeichen zu erkennen, das nicht Teil des Trainings, das dieser Bildklassifizierer zuvor erhalten hatte, war. Die Zielbilder werden spezifisch derart erzeugt, dass sie das neu eingeführte Verkehrszeichen beinhalten. So müssen nur sehr wenige Bilder von Verkehrsszenen mit dem neu eingeführten Verkehrszeichen physisch als Trainingsbilder zum Trainieren oder Umtrainieren aufgenommen werden.In a further particularly advantageous embodiment, the image classifier is configured to classify traffic signs in traffic scenes. The purpose of the training performed on the image classifier is to train or retrain it to recognize a newly introduced traffic sign that was not part of the training that image classifier had previously received. The target images are specifically generated to include the newly introduced traffic sign. Thus, only very few images of traffic scenes with the newly introduced traffic sign have to be physically recorded as training images for training or retraining.

Die Erfindung stellt außerdem ein Verfahren zum Trainieren eines cGAN-Generators als ein erstes Maschinenlernmodell zur Verwendung bei dem oben beschriebenen Verfahren bereit.The invention also provides a method of training a cGAN generator as a first machine learning model for use in the method described above.

Im Laufe dieses Verfahrens werden mehrere Trainingsquellenbilder erfasst. Außerdem werden mehrere Trainingsangaben von semantischem Zielinhalt bereitgestellt. Für jede Trainingsangabe von semantischem Zielinhalt werden mehrere Trainingssemantikmasken bereitgestellt. Diese Trainingssemantikmasken stimmen mit der Trainingsangabe des semantischen Zielinhalts überein.Several training source images are acquired during this process. In addition, several training indications of target semantic content are provided. Multiple training semantic masks are provided for each training indication of target semantic content. These training semantic masks match the training specification of the target semantic content.

Unter Verwendung des Generators, der an Trainingsangaben von semantischem Zielinhalt konditioniert ist, werden Trainingsquellenbilder auf Zielsemantikmasken abgebildet. Diese Zielsemantikmasken werden mit den Trainingssemantikmasken in einem gemeinsamen Pool gepoolt. Semantikmasken aus diesem gemeinsamen Pool werden einem trainierbaren Diskriminator bereitgestellt. Dieser Diskriminator ist dazu konfiguriert, erzeugte Zielsemantikmasken von Trainingssemantikmasken zu unterscheiden. Der Diskriminator wird an dem jeweiligen Trainingsquellenbild und der jeweiligen Angabe von semantischem Zielinhalt konditioniert.Using the generator conditioned on training indications of target semantic content, training source images are mapped to target semantic masks. These target semantic masks are matched with the training semantic masks pooled in a shared pool. Semantic masks from this common pool are provided to a trainable discriminator. This discriminator is configured to distinguish generated target semantic masks from training semantic masks. The discriminator is conditioned on the respective training source image and the respective indication of target semantic content.

Parameter, die das Verhalten des Diskriminators charakterisieren, werden mit dem Ziel, die Genauigkeit, mit der der Diskriminator Zielsemantikmasken von Trainingssemantikmasken unterscheidet, zu verbessern, optimiert. Dagegen werden Parameter, die das Verhalten des Generators charakterisieren, mit dem Ziel, diese Genauigkeit zu verschlechtern, optimiert.Parameters characterizing the behavior of the discriminator are optimized with the aim of improving the accuracy with which the discriminator distinguishes target semantic masks from training semantic masks. On the other hand, parameters that characterize the behavior of the generator are optimized with the aim of degrading this accuracy.

Dieses Verfahren stellt eine besonders vorteilhafte Weise des dahingehenden Trainierens des Generators, realistische und semantisch korrekte Zielsemantikmasken zu produzieren, bereit. Insbesondere ermöglicht das Adversarial-Training dem Generator, semantische Beziehungen und Abhängigkeiten zwischen verschiedenen semantischen Bedeutungen (wie etwa Objektklassen) zu erlernen. Wird beispielsweise ein Tisch aus einem Bild, das eine Innenszene zeigt, entfernt, müssen sämtliche auf diesem Tisch befindliche Objekte ebenfalls entfernt werden, da sie nicht frei in der Luft schweben können. Es wäre recht schwierig, diese Beziehungen aus Bildpaaren zu erlernen. Gemäß dem vorliegenden Verfahren erlernt der Diskriminator jedoch die Verteilung semantisch korrekter Semantikmasken und kann somit eine semantisch inkorrekte Maske als eine sehr wahrscheinlich durch den Generator erzeugte Maske markieren.This method provides a particularly advantageous way of training the generator to produce realistic and semantically correct target semantic masks. In particular, adversarial training enables the generator to learn semantic relationships and dependencies between different semantic meanings (such as object classes). For example, if a table is removed from an image showing an interior scene, any objects on that table must also be removed, as they cannot float freely in the air. It would be quite difficult to learn these relationships from pairs of images. However, according to the present method, the discriminator learns the distribution of semantically correct semantic masks and can thus mark a semantically incorrect mask as a mask with a high probability of being generated by the generator.

Das letztendliche Ziel der hier bereitgestellten Verfahren besteht darin, technische Systeme gemäß Entscheidungen, die basierend auf Bildern getroffen wurden, zu betätigen. In diesem Kontext bringen die Verfahren den Vorteil mit sich, dass es wahrscheinlicher ist, dass die in dem jeweiligen technischen System durchgeführte letztliche Handlung in der in dem Bild angegebenen Situation angemessen ist.The ultimate goal of the methods provided here is to operate technical systems according to decisions made based on images. In this context, the methods bring the advantage that it is more likely that the final action performed in the respective technical system is appropriate in the situation indicated in the image.

Daher stellt die Erfindung ein weiteres Verfahren bereit, das die gesamte Ursache-Wirkung-Kette bis zu und einschließlich einer Betätigung technischer Systeme abdeckt.Therefore, the invention provides another method that covers the entire cause-effect chain up to and including an operation of technical systems.

Das Verfahren beginnt mit dem Trainieren eines cGAN-Generators wie zuvor beschrieben. Unter Verwendung dieses cGAN-Generators werden gemäß dem zuerst beschriebenen Verfahren Zielbilder erzeugt. Unter Verwendung der erzeugten Zielbilder wird ein Bildklassifizierer trainiert.The method begins by training a cGAN generator as previously described. Using this cGAN generator, target images are generated according to the method described first. An image classifier is trained using the generated target images.

Unter Verwendung mindestens eines Sensors werden Bilder aufgenommen. Die aufgenommenen Bilder werden dem trainierten Bildklassifizierer zugeführt. Aus der Ausgabe des Bildklassifizierers wird ein Betätigungssignal erzeugt. Ein Fahrzeug, ein Überwachungssystem, ein Qualitätssicherungssystem und/oder ein medizinisches Bildgebungssystem wird mit dem Betätigungssignal betätigt.Images are captured using at least one sensor. The recorded images are fed to the trained image classifier. An actuation signal is generated from the output of the image classifier. A vehicle, surveillance system, quality assurance system, and/or medical imaging system is actuated with the actuation signal.

Die hierin beschriebenen Verfahren können vollständig oder teilweise durch einen oder mehrere Computer durchgeführt werden. In diesem Kontext sind Steuereinheiten für Fahrzeuge oder Maschinen, sowie eingebettete Systeme, die maschinenlesbare Anweisungen ausführen können, ebenfalls als Computer zu betrachten. Die Erfindung betrifft somit auch ein Computerprogramm mit maschinenlesbaren Anweisungen, die bei Ausführung auf einem oder mehreren Computern bewirken, dass der eine oder die mehreren Computer ein oben beschriebenes Verfahren durchführen.The methods described herein may be performed in whole or in part by one or more computers. In this context, control units for vehicles or machines, as well as embedded systems that can execute machine-readable instructions, are also considered computers. The invention thus also relates to a computer program with machine-readable instructions which, when executed on one or more computers, cause the one or more computers to carry out a method described above.

Die Erfindung stellt außerdem ein nichtflüchtiges maschinenlesbares Speichermedium und/oder ein Download-Produkt mit dem Computerprogramm bereit. Bei einem Download-Produkt handelt es sich um ein digitales Produkt, das das Computerprogramm umfasst und das online zur unmittelbaren Abwicklung per Download zum Verkauf stehen kann.The invention also provides a non-transitory machine-readable storage medium and/or a download product with the computer program. A Download Product is a digital product that includes the computer program and may be sold online for immediate download processing.

Die Erfindung stellt außerdem einen oder mehrere Computer mit dem Computerprogramm und/oder mit dem nichtflüchtigen maschinenlesbaren Speichermedium bereit.The invention also provides one or more computers with the computer program and/or with the non-transitory machine-readable storage medium.

Im Folgenden werden weitere Verbesserungen an der Erfindung in Kombination mit einer Beschreibung bevorzugter Ausführungsformen unter Verwendung von Figuren ausführlich dargestellt.Further improvements to the invention are presented in detail below in combination with a description of preferred embodiments using figures.

Bevorzugte AusführungsformenPreferred Embodiments

Die Figuren zeigen Folgendes:

  • 1 Ausführungsbeispiel des Verfahrens 100 zum Transformieren eines Quellenbilds 1 und einer Angabe 2 von semantischem Zielinhalt in ein Zielbild 4;
  • 2 Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines cGAN-Generators als ein Maschinenlernmodell 10 zur Verwendung bei dem Verfahren 100;
  • 3 Ausführungsbeispiel des Verfahrens 300 mit der gesamten Ursache-Wirkung-Kette bis zu und einschließlich einer Betätigung technischer Systeme 50, 60, 70, 80;
  • 4 Beispieltransformation eines Quellenbilds 1 in ein Zielbild 4 unter Verwendung des Verfahrens 100.
The figures show the following:
  • 1 Embodiment of the method 100 for transforming a source image 1 and an indication 2 of target semantic content into a target image 4;
  • 2 Embodiment of the method 200 for training a cGAN generator as a machine learning model 10 for use in the method 100;
  • 3 Embodiment of the method 300 with the entire cause-effect chain up to and including an operation of technical systems 50, 60, 70, 80;
  • 4 Example transformation of a source image 1 to a target image 4 using method 100.

1 ist ein schematisches Flussdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Transformieren eines Quellenbilds 1 und einer Angabe 2 von semantischem Zielinhalt in ein Zielbild 4. 1 is a schematic flow chart of an embodiment of the method 100 for transforming a source image 1 and an indication 2 of semantic target content into a target image 4.

Bei Schritt 110 wird eine Kombination des Quellenbilds 2 und der Angabe 2 des semantischen Zielinhalts, den das Zielbild 4 enthalten soll, durch ein erstes trainiertes Maschinenlernmodell 10 auf eine Zielsemantikmaske 3 abgebildet. Gemäß Block 110 kann es sich bei diesem ersten trainierten Maschinenlernmodell 10 um einen Generator eines konditionellen generativen Adversarial-Netzwerks, cGAN, handeln.At step 110 a combination of the source image 2 and the indication 2 of the target semantic content that the target image 4 should contain is mapped onto a target semantic mask 3 by a first trained machine learning model 10 . According to block 110, this first trained machine learning model 10 may be a conditional generative adversarial network, cGAN, generator.

Bei Schritt 120 wird das Zielbild 4 aus der Zielsemantikmaske 3 erzeugt. Gemäß Block 121 kann dies unter Verwendung eines zweiten trainierten Maschinenlernmodells 11 erfolgen. Gemäß Block 121a kann dieses zweite trainierte Maschinenlernmodell derart gewählt sein, dass es ein Generator eines weiteren generativen Adversarial-Netzwerks ist.At step 120 the target image 4 is generated from the target semantic mask 3 . According to block 121 this can be done using a second trained machine learning model 11 . According to block 121a, this second trained machine learning model can be chosen such that it is a generator of another generative adversarial network.

Bei einem optionalen Schritt 130 kann das erzeugte Zielbild 4 einem Bildklassifizierer 20 als ein Trainingsbild oder ein Testbild zugeführt werden. Insbesondere kann, gemäß Block 131, der Bildklassifizierer 20 dazu konfiguriert werden, Verkehrszeichen in Verkehrsszenen zu klassifizieren. Gemäß Block 132 kann der Bildklassifizierer dahingehend trainiert oder umtrainiert werden, ein neu eingeführtes Verkehrszeichen zu erkennen. Gemäß Block 132 können die Zielbilder 4 spezifisch derart erzeugt werden, dass sie dieses neu eingeführte Verkehrszeichen beinhalten.In an optional step 130, the generated target image 4 can be supplied to an image classifier 20 as a training image or a test image. In particular, according to block 131, the image classifier 20 can be configured to classify traffic signs in traffic scenes. According to block 132, the image classifier may be trained or retrained to recognize a newly introduced traffic sign. According to block 132, the target images 4 can be generated specifically in such a way that they contain this newly introduced traffic sign.

Bei einem optionalen Schritt 140 kann die Angabe 2 des semantischen Zielinhalts, mit dem das Zielbild 4 erzeugt wurde, als Ground Truth für das überwachte Training des Bildklassifizierers 20 verwendet werden.In an optional step 140, the indication 2 of the semantic target content with which the target image 4 was generated can be used as ground truth for the supervised training of the image classifier 20.

2 ist ein schematisches Flussdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines cGAN-Generators als ein erstes Maschinenlernmodell 10 zur Verwendung bei dem zuvor beschriebenen Verfahren 100. 2 1 is a schematic flow diagram of an embodiment of the method 200 for training a cGAN generator as a first machine learning model 10 for use in the method 100 described above.

Bei Schritt 210 werden mehrere Trainingsquellenbilder 1a bereitgestellt. Bei Schritt 220 werden mehrere Trainingsangaben 2a von semantischem Zielinhalt bereitgestellt. Für jede derartige Trainingsangabe 2a von semantischem Zielinhalt werden bei Schritt 230 mehrere Trainingssemantikmasken 3a, die mit dieser Trainingsangabe 2a von semantischem Zielinhalt übereinstimmen, bereitgestellt. Bei Schritt 240 werden die Trainingsquellenbilder 1a durch den Generator 10, der an Trainingsangaben 2a von semantischem Zielinhalt konditioniert ist, auf Zielsemantikmasken 3 abgebildet.At step 210, a plurality of training source images 1a are provided. At step 220, a plurality of training statements 2a of target semantic content are provided. For each such training indication 2a of target semantic content, at step 230, a plurality of training semantic masks 3a corresponding to that training indication 2a of target semantic content are provided. At step 240, the training source images 1a are mapped onto target semantic masks 3 by the generator 10 conditioned on training indications 2a of target semantic content.

Bei Schritt 250 werden die Zielsemantikmasken 3 und die Trainingssemantikmasken 3a in einem Pool P kombiniert. Semantikmasken aus diesem Pool P werden einem trainierbaren Diskriminator 15 bereitgestellt, der dazu konfiguriert ist, erzeugte Zielsemantikmasken 3 von Trainingssemantikmasken 3a zu unterscheiden. Dieser Diskriminator 15 wird an dem jeweiligen Trainingsquellenbild 1a und der jeweiligen Trainingsangabe 2a von semantischem Zielinhalt konditioniert.At step 250, the target semantic masks 3 and the training semantic masks 3a are combined into a pool P . Semantic masks from this pool P are provided to a trainable discriminator 15, which is configured to distinguish generated target semantic masks 3 from training semantic masks 3a. This discriminator 15 is conditioned on the respective training source image 1a and the respective training indication 2a of semantic target content.

Bei Schritt 260 werden Parameter 15a, die das Verhalten des Diskriminators 15 charakterisieren, mit dem Ziel, die Genauigkeit A, mit der der Diskriminator 15 Zielsemantikmasken 3 von Trainingssemantikmasken 3a unterscheidet, zu verbessern, optimiert. Bei Schritt 270 werden Parameter 10a, die das Verhalten des Generators 10 charakterisieren, mit dem Ziel, die Genauigkeit A zu verschlechtern, optimiert. Das bedeutet, dass der Generator 10 und der Diskriminator 15 in einem konfliktären („Adversarial“) Rahmen trainiert werden. Wird der eine besser, so ist der andere dazu gezwungen, ebenfalls besser zu werden.At step 260, parameters 15a characterizing the behavior of the discriminator 15 are optimized with the aim of improving the accuracy A with which the discriminator 15 distinguishes target semantic masks 3 from training semantic masks 3a. At step 270, parameters 10a characterizing the behavior of the generator 10 are optimized with the aim of degrading the accuracy A. This means that the generator 10 and the discriminator 15 are trained in a conflictual ("adversarial") framework. If one gets better, the other is forced to get better too.

Der letztlich erhaltene trainierte Zustand der Generatorparameter 10a ist mit dem Bezugszeichen 10a* gekennzeichnet. Der letztlich erhaltene trainierte Zustand der Diskriminatorparameter 15a ist mit dem Bezugszeichen 15a* gekennzeichnet. Zur Durchführung des Verfahrens 100 wird lediglich der Generator 10 benötigt. Der Diskriminator 15 wird nicht mehr benötigt.The finally obtained trained state of the generator parameters 10a is identified by the reference symbol 10a*. The finally obtained trained state of the discriminator parameters 15a is identified by the reference symbol 15a*. Only the generator 10 is required to carry out the method 100 . The discriminator 15 is no longer required.

3 ist ein schematisches Flussdiagramm eines Ausführungsbeispiels des Verfahrens 300 mit der gesamten Ursache-Wirkung-Kette bis zu und einschließlich einer Betätigung technischer Systeme 50, 60, 70, 80. 3 is a schematic flowchart of an embodiment of the method 300 with the entire cause-effect chain up to and including an actuation of technical systems 50, 60, 70, 80.

Bei Schritt 310 wird ein cGAN-Generator gemäß dem zuvor beschriebenen Verfahren 200 trainiert, was zu trainierten Endparametern 10a* führt. Bei Schritt 320 werden unter Verwendung dieses trainierten cGAN-Generators 10 gemäß dem zuvor beschriebenen Verfahren 100 Zielbilder 4 erzeugt. Unter Verwendung dieser Zielbilder 4 wird bei Schritt 330 ein Bildklassifizierer 20 trainiert. Insbesondere müssen die Zielbilder 4 nicht die einzigen Trainingsbilder sein, die für dieses Training verwendet werden; vielmehr können die Zielbilder 4 einen bereits bestehenden Datensatz von Trainingsbildern ergänzen.At step 310, a cGAN generator is trained according to the previously described method 200, resulting in trained final parameters 10a*. At step 320, using this trained cGAN generator 10, 100 target images 4 are generated according to the previously described method. Using these target images 4, at step 330 an image classifier 20 is trained. In particular, the target images 4 need not be the only training images used for this training; Rather, the target images 4 can supplement an already existing data set of training images.

Bei Schritt 340 werden unter Verwendung mindestens eines Sensors 6 Bilder 5 aufgenommen. Bei Schritt 350 werden die aufgenommenen Bilder 5 dem trainierten Bildklassifizierer 20 zugeführt. Bei Schritt 360 wird ein Betätigungssignal 360a aus der Ausgabe des Bildklassifizierers 20 erzeugt. Bei Schritt 360 wird ein Fahrzeug 50, ein Überwachungssystem 60, ein Qualitätssicherungssystem 70 und/oder ein medizinisches Bildgebungssystem 80 mit dem Betätigungssignal 360a betätigt.At step 340, images 5 are captured using at least one sensor 6 . At step 350 the captured images 5 are fed to the trained image classifier 20 . At step 360 an actuation signal 360a is generated from the output of the image classifier 20 . At step 360, a vehicle 50, a monitoring system 60, a quality assurance system 70, and/or a medical imaging system 80 is actuated with the actuation signal 360a.

4 veranschaulicht anhand eines Beispiels, wie ein Quellenbild 1 gemäß dem Verfahren 100 in ein Zielbild transformiert werden kann. Bei dem in 4 gezeigten Beispiel zeigt das Quellenbild 1 eine Verkehrssituation 40 mit einer Straße 41, aufgestellten Zeichen 42 und einem Bus 43 auf der Seite der Straße. Unter Verwendung des Generators 10, konditioniert an der Beispielangabe 2 von semantischem Zielinhalt, den das Zielbild enthalten soll, „die Seite eines Busses, der an der Seite einer Straße geparkt ist“, wird die Zielsemantikmaske 3 erzeugt. Unter Verwendung eines zweiten Generators 11, der auf Bildsynthese trainiert ist, wird diese Semantikmaske 3 in das Zielbild 4 transformiert. Das Zielbild 4 enthält einen Bus 43, der an der Seite einer Straße 41 geparkt ist, und die Seite des Busses 43 ist sichtbar. Im Hintergrund des Zielbilds sind außerdem ein Haus 44 und ein Baum 45 sichtbar. 4 FIG. 12 illustrates by way of example how a source image 1 can be transformed into a target image according to the method 100. FIG. At the in 4 In the example shown, the source image 1 shows a traffic situation 40 with a road 41, posted signs 42 and a bus 43 on the side of the road. Using the generator 10 conditioned on the example statement 2 of target semantic content that the target image is to contain, "the side of a bus parked at the side of a street", the target semantic mask 3 is generated. This semantic mask 3 is transformed into the target image 4 using a second generator 11 which is trained for image synthesis. The target image 4 includes a bus 43 parked at the side of a road 41, and the side of the bus 43 is visible. A house 44 and a tree 45 are also visible in the background of the target image.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

  • DE 102018204494 B3 [0005]DE 102018204494 B3 [0005]

Claims (15)

Verfahren (100) zum Transformieren eines gegebenen Quellenbilds (1) in ein Zielbild (4) mit einem gegebenen semantischen Zielinhalt, das die folgenden Schritte umfasst: • Abbilden (110), unter Verwendung eines ersten trainierten Maschinenlernmodells (10), einer Kombination des Quellenbilds (1) und einer Angabe (2) des semantischen Zielinhalts auf eine Zielsemantikmaske (3), wobei diese Zielsemantikmaske (3) o für jedes Pixel des Zielbilds (4) eine semantische Bedeutung dieses Pixels in einem gegebenen Kontext, in dem das Zielbild (4) zu verwenden ist, angibt und o mit der Angabe (2) des semantischen Zielinhalts übereinstimmt; und • Erzeugen (120), aus der Zielsemantikmaske (3), des Zielbilds (4).Method (100) for transforming a given source image (1) into a target image (4) with a given target semantic content, comprising the following steps: • Mapping (110), using a first trained machine learning model (10), a combination of the source image (1) and an indication (2) of the target semantic content to a target semantic mask (3), this target semantic mask (3) o indicates for each pixel of the target image (4) a semantic meaning of that pixel in a given context in which the target image (4) is to be used and o matches the indication (2) of the target semantic content; and • Generating (120) from the target semantic mask (3) the target image (4). Verfahren (100) nach Anspruch 1, wobei die semantische Bedeutung eines Pixels in dem Zielbild (4) eine Zielklasse angibt, der ein dieses Pixel in dem Zielbild (4) einnehmendes Objekt angehören soll.Method (100) according to claim 1 , the semantic meaning of a pixel in the target image (4) indicating a target class to which an object occupying this pixel in the target image (4) should belong. Verfahren (100) nach Anspruch 1 oder 2, wobei das erste trainierte Maschinenlernmodell (10) derart gewählt wird (111), dass es ein Generator eines konditionellen generativen Adversarial-Netzwerks, cGAN (conditional Generative Adversarial Network), ist, und wobei dieses cGAN an dem semantischen Zielinhalt konditioniert wird.Method (100) according to claim 1 or 2 , wherein the first trained machine learning model (10) is chosen (111) to be a generator of a conditional generative adversarial network, cGAN (conditional generative adversarial network), and wherein this cGAN is conditioned on the target semantic content. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei das Zielbild (4) aus der Zielsemantikmaske (3) unter Verwendung eines zweiten trainierten Maschinenlernmodells (11) erzeugt wird (121).Method (100) according to any one of Claims 1 until 3 , wherein the target image (4) is generated (121) from the target semantic mask (3) using a second trained machine learning model (11). Verfahren (100) nach Anspruch 4, wobei das zweite trainierte Maschinenlernmodell (11) derart gewählt wird (121a), dass es ein Generator eines generativen Adversarial-Netzwerks ist.Method (100) according to claim 4 , wherein the second trained machine learning model (11) is chosen (121a) to be a generator of a generative adversarial network. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei die Angabe (2) des semantischen Zielinhalts in Textform geliefert wird.Method (100) according to any one of Claims 1 until 5 , where the specification (2) of the semantic target content is provided in text form. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei das Quellenbild und das Zielbild aus der Perspektive eines Fahrzeugs betrachtete Verkehrsszenen repräsentieren.Method (100) according to any one of Claims 1 until 6 , wherein the source image and the target image represent traffic scenes viewed from a vehicle's perspective. Verfahren (100) nach Anspruch 7, wobei der semantische Zielinhalt derart gewählt wird, dass er eine Verkehrsszene mit mindestens einer ungünstigen Wetterbedingung und/oder mit mindestens einer Situation, die eine Handlung mindestens eines Teilnehmers erfordert, um eine Kollision zu vermeiden, angibt.Method (100) according to claim 7 , wherein the target semantic content is chosen to indicate a traffic scene with at least one adverse weather condition and/or with at least one situation that requires action of at least one participant to avoid a collision. Verfahren (100) nach einem der Ansprüche 1 bis 8, das ferner Folgendes umfasst: Zuführen (130) des Zielbilds (4) an einen Bildklassifizierer (20) als ein Trainingsbild oder als ein Testbild und Verwenden (140) der Angabe (2) des semantischen Zielinhalts als Ground Truth für das überwachte Training des Bildklassifizierers (20) bzw. als Ground Truth für den Test.Method (100) according to any one of Claims 1 until 8th , further comprising: supplying (130) the target image (4) to an image classifier (20) as a training image or as a test image and using (140) the indication (2) of the target semantic content as ground truth for the supervised training of the image classifier (20) or as ground truth for the test. Verfahren (100) nach Anspruch 9, wobei • der Bildklassifizierer (20) dazu konfiguriert wird (131), Verkehrszeichen in Verkehrsszenen zu klassifizieren; • der Bildklassifizierer (20) dahingehend trainiert oder umtrainiert wird (132), ein neu eingeführtes Verkehrszeichen zu erkennen, und • die Zielbilder (4) derart erzeugt werden (133), dass sie dieses neu eingeführte Verkehrszeichen beinhalten.Method (100) according to claim 9 , wherein • the image classifier (20) is configured (131) to classify traffic signs in traffic scenes; • the image classifier (20) is trained or retrained (132) to recognize a newly introduced traffic sign, and • the target images (4) are generated (133) in such a way that they contain this newly introduced traffic sign. Verfahren (200) zum Trainieren eines cGAN-Generators als ein erstes Maschinenlernmodell (10) zur Verwendung bei dem Verfahren (100) nach einem der Ansprüche 1 bis 10, das die folgenden Schritte umfasst: • Bereitstellen (210) mehrerer Trainingsquellenbilder (1a); • Bereitstellen (220) mehrerer Trainingsangaben (2a) von semantischem Zielinhalt; • Bereitstellen (230), für jede Trainingsangabe (2a) von semantischem Zielinhalt, mehrerer Trainingssemantikmasken (3a), die mit dieser Trainingsangabe (2a) von semantischem Zielinhalt übereinstimmen; • Abbilden (240), durch den Generator (10), der an Trainingsangaben (2a) von semantischem Zielinhalt konditioniert ist, von Trainingsquellenbildern (1a) auf Zielsemantikmasken (3); • Bereitstellen (250) eines Pools (P) derart erzeugter Zielsemantikmasken (3) und Trainingssemantikmasken (3a) an einen trainierbaren Diskriminator (15), der dazu konfiguriert ist, erzeugte Zielsemantikmasken (3) von Trainingssemantikmasken (3a) zu unterscheiden, wobei dieser Diskriminator (15) an dem jeweiligen Trainingsquellenbild (1a) und der jeweiligen Trainingsangabe (2a) von semantischem Zielinhalt konditioniert wird; • Optimieren (260) von Parametern (15a), die das Verhalten des Diskriminators (15) charakterisieren, mit dem Ziel, die Genauigkeit (A), mit der der Diskriminator (15) Zielsemantikmasken (3) von Trainingssemantikmasken (3a) unterscheidet, zu verbessern; und • Optimieren (270) von Parametern (10a), die das Verhalten des Generators (10) charakterisieren, mit dem Ziel, die Genauigkeit (A) zu verschlechtern.Method (200) for training a cGAN generator as a first machine learning model (10) for use in the method (100) according to any one of Claims 1 until 10 , comprising the following steps: • providing (210) a plurality of training source images (1a); • providing (220) a plurality of training statements (2a) of target semantic content; • providing (230), for each training statement (2a) of target semantic content, a plurality of training semantic masks (3a) that match this training statement (2a) of target semantic content; • mapping (240), by the generator (10) conditioned on training statements (2a) of target semantic content, from training source images (1a) to target semantic masks (3); • Providing (250) a pool (P) of such generated target semantic masks (3) and training semantic masks (3a) to a trainable discriminator (15), which is configured to distinguish generated target semantic masks (3) from training semantic masks (3a), this discriminator (15) being conditioned on the respective training source image (1a) and the respective training indication (2a) of target semantic content; • Optimizing (260) parameters (15a) characterizing the behavior of the discriminator (15) with the aim of increasing the accuracy (A) with which the discriminator (15) distinguishes target semantic masks (3) from training semantic masks (3a). to enhance; and • Optimizing (270) parameters (10a) characterizing the behavior of the generator (10) with the aim of degrading the accuracy (A). Verfahren (300), das Folgendes umfasst: • Trainieren (310) eines cGAN-Generators (10) gemäß dem Verfahren (200) nach Anspruch 11; • Erzeugen (320), unter Verwendung dieses cGAN-Generators (10), von Zielbildern (4) gemäß dem Verfahren (100) nach einem der Ansprüche 1 bis 10; • Trainieren (330), unter Verwendung dieser Zielbilder (4), eines Bildklassifizierers (20); • Aufnehmen (340) von Bildern (5) unter Verwendung mindestens eines Sensors (6); • Zuführen (350) der aufgenommenen Bilder (5) an den trainierten Bildklassifizierer (20); • Erzeugen (360), aus der Ausgabe (20a) des Bildklassifizierers (20), eines Betätigungssignals (360a); und • Betätigen (370) eines Fahrzeugs (50), eines Überwachungssystems (60), eines Qualitätssicherungssystems (70) und/oder eines medizinischen Bildgebungssystems (80) mit dem Betätigungssignal (360a).A method (300) comprising: • training (310) a cGAN generator (10) according to the method (200). claim 11 ; • Generate (320), using this cGAN Generator (10), of target images (4) according to the method (100) according to one of Claims 1 until 10 ; • training (330), using these target images (4), an image classifier (20); • recording (340) of images (5) using at least one sensor (6); • Supplying (350) the recorded images (5) to the trained image classifier (20); • generating (360), from the output (20a) of the image classifier (20), an actuation signal (360a); and • actuating (370) a vehicle (50), a monitoring system (60), a quality assurance system (70) and/or a medical imaging system (80) with the actuating signal (360a). Computerprogramm, das maschinenlesbare Anweisungen umfasst, die bei Ausführung durch einen oder mehrere Computer bewirken, dass der eine oder die mehreren Computer ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 12 durchführen.A computer program comprising machine-readable instructions that, when executed by one or more computers, cause the one or more computers to perform a method (100, 200, 300) according to any one of Claims 1 until 12 execute. Nichtflüchtiges maschinenlesbares Speichermedium mit dem Computerprogramm nach Anspruch 11.Non-transitory machine-readable storage medium containing the computer program claim 11 . Computer bzw. mehrere Computer mit dem Computerprogramm nach Anspruch 11 und/oder mit dem nichtflüchtigen maschinenlesbaren Speichermedium nach Anspruch 12.Computer or several computers with the computer program claim 11 and/or the non-transitory machine-readable storage medium claim 12 .
DE102020215698.0A 2020-12-11 2020-12-11 Synthetic creation of images with given semantic content Pending DE102020215698A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020215698.0A DE102020215698A1 (en) 2020-12-11 2020-12-11 Synthetic creation of images with given semantic content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020215698.0A DE102020215698A1 (en) 2020-12-11 2020-12-11 Synthetic creation of images with given semantic content

Publications (1)

Publication Number Publication Date
DE102020215698A1 true DE102020215698A1 (en) 2022-06-15

Family

ID=81749950

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020215698.0A Pending DE102020215698A1 (en) 2020-12-11 2020-12-11 Synthetic creation of images with given semantic content

Country Status (1)

Country Link
DE (1) DE102020215698A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (en) 2018-03-23 2019-08-14 Robert Bosch Gmbh Generation of synthetic radar signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (en) 2018-03-23 2019-08-14 Robert Bosch Gmbh Generation of synthetic radar signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ESFAHANI, S. N.; LATIFI, S.: Image generation with gans-based techniques: a survey. In: AIRCC's International Journal of Computer Science and Information Technology, 2019, 11. Jg., Nr. 5, S. 33-50.
PAVLLO, D.; LUCCHI, A.; HOFMANN, T.: Controlling style and semantics in weakly-supervised image generation. In: arXiv:1912.03161v2, 21.07.2020 (URL: https://arxiv.org/pdf/1912.03161)

Similar Documents

Publication Publication Date Title
DE102018130821A1 (en) Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product
DE102019209560A1 (en) Apparatus and method for training a neural network
WO2013152929A1 (en) Learning method for automated recognition of traffic signs, method for determining an updated parameter set for the classification of a traffic sign and traffic sign recognition system
EP3869390A1 (en) Computer-implemented method and system for creating a virtual vehicle environment
DE102018206806A1 (en) Method and device for converting an input image of a first domain into an output image of a second domain
WO2021122338A1 (en) Method and device for making sensor data more robust against adverse disruptions
EP3748454A1 (en) Method and device for automatically executing a control function of a vehicle
EP3748453A1 (en) Method and device for automatically executing a control function of a vehicle
DE102020215698A1 (en) Synthetic creation of images with given semantic content
DE102018132627A1 (en) Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product
DE102021200643B3 (en) Method for environment recognition for semi-autonomous or autonomous driving functions of a motor vehicle using a neural network
EP3876157B1 (en) Computer-implemented method and system for generating synthetic sensor data and training method
DE102020209958A1 (en) Device for learning an image of a vehicle camera and method therefor
DE102019108722A1 (en) Video processing for machine learning
DE102019217951A1 (en) Method and apparatus for determining a domain distance between at least two data domains
DE102018221625A1 (en) Transfer of additional information between camera systems
DE102021206190A1 (en) Procedure for recognizing objects of searched types in camera images
DE102021200614A1 (en) Domain-independent training of image classifiers
DE102021208722A1 (en) Configuring a neural network for equivariant or invariant behavior
DE102020211475A1 (en) Cascaded cluster generator meshes for generating synthetic images
DE102020210710A1 (en) Training method for a generator to generate realistic images
DE102021214474A1 (en) COMPUTER-IMPLEMENTED METHOD FOR OPTIMIZING AN ALGORITHM FOR DETECTING AN OBJECT OF INTEREST OUTSIDE A VEHICLE
DE102021207151A1 (en) Evaluation of generators to produce realistic images
DE102022105413A1 (en) Method for recognizing a street sign in an environment of a motor vehicle using an assistance system, computer program product, computer-readable storage medium and assistance system
WO2022043203A1 (en) Training a generator for generating realistic images using a semantically segmenting discriminator

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000