-
Die vorliegende Erfindung betrifft ein Verfahren zum Trainieren eines Generative Adversarial Networks (GAN, deutsch: „erzeugende widerstreitende Netzwerke“), ein Generative Adversarial Network, ein Computerprogramm, ein maschinenlesbares Speichermedium und eine Vorrichtung.
-
Stand der Technik
-
Generative Adversarial Networks (GAN, deutsch: „erzeugende widerstreitende Netzwerke“) sind Verfahren des unüberwachten maschinellen Lernens. GAN umfassen zwei künstliche neuronale Netzwerke: einen Generator und einen Diskriminator.
-
Der Generator erhält als Eingabe typischerweise zufälliges Rauschen. Meist normalverteilt mit einem Erwartungswert von 0 und einer Varianz von 1. Der Generator ist dazu eingerichtet Ausgaben in einem Format zu erzeugen, die einem vorgegebenen Format entsprechen bzw. einer vorgegebenen Domäne zugeordnet werden können.
-
Der Diskriminator ist derart eingerichtet, dass er zwischen realen bzw. originalen und erzeugten Daten unterscheiden kann. Wobei diejenigen Daten als reale Daten gelten, mittels derer der Generator trainiert wurde. Als erzeugte Daten gelten diejenigen Daten, die durch den Generator erzeugt wurden.
-
Die Ausgabe des Diskriminators bei Eingabe von erzeugten Daten wird als Trainingssignal für den Generator genutzt. Ziel ist es dabei den Generator derart zu trainieren, dass er dazu in die Lage versetzt wird, Daten zu erzeugen, die von dem Diskriminator nicht mehr als erzeugte Daten erkannt werden (und damit fälschlicherweise als reale bzw. originale Daten klassifiziert werden).
-
Aus Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville. Improved Training of Wasserstein GANs. sind sogenannte Wasserstein GANs (WGAN) bekannt. Diese basieren auf der Theorie des Optimalen Transports und stellen den Stand der Technik in Bezug auf Lernstabilität und Qualität der durch das GAN erzeugten Ergebnisse (Sample) dar.
-
Wasserstein GAN (WGAN) unterscheiden sich von Standard-GAN (SGAN) in mehreren Punkten. Die Ausgabeschicht eines künstlichen neuronalen Netzes eines WGAN umfasst im Unterschied zu SGAN keine Nicht-Linearitäten. Bei SGAN umfasst die Ausgabeschicht meist Sigmoide-Funktionen. Das bedeutet, dass selbst wenn der Diskriminator nahe zum Optimum trainiert wurde, der Gradient, den er ausgibt, nie in eine Sättigung übergeht.
-
In Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Shin Ishii. Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning. ist für den Bereich des teilüberwachten maschinellen Lernens bekannte Verfahren, Virtual Adversarial Training (VAT), zum Trainieren von künstlichen neuronalen Netzen beschrieben. Dieses Verfahren basiert darauf ein gegebenes Eingabedatum derart zu verändern, dass sich die Ausgabe des darauf angewendeten künstlichen neuronalen Netzes stark bzw. am stärksten ändert. Die Änderung bemisst sich dabei anhand der Ausgabe des veränderten Eingabedatums im Vergleich zu der Ausgabe des originalen, sprich unveränderten, Eingabedatums. Im Rahmen dieses Verfahrens ist die entsprechende Richtung der Änderung des Eingabedatums zu ermitteln bzw. anzunähern, die die gewünschte starke bzw. stärkste Änderung der Ausgabe hervorruft. Diese Richtung ist unter dem Begriff Adversarial Pertubation Direction oder Adversarial Direction bekannt.
-
VAT nutzt die Potenzmethode aus, um die Adversarial Direction eines bestimmten künstlichen neuronalen Netzwerks anzunähern.
-
Offenbarung der Erfindung
-
In der Theorie muss der Diskriminator eines WGAN 1-Lipschitz sein. Eine Funktion ist K-Lipschitz, wenn nachstehende Bedingung erfüllt ist. Es seien d
x und d
y die Metriken der Funktionsdomäne und deren Co-Domäne, f der Diskriminator des WGAN, die Metrik der Domäne ist meist die L2-Norm für Bilder, die Metrik der Co-Domäne die absolute Differenz zwischen den skalaren Ausgaben und K in etwa 1:
-
In der Praxis wird dies durch eine Bedingung (soft constraint) durch Hinzunahme eines Regularisierungsterms (regularization term), der die Verletzung der Lipschitz-Bedingung repräsentiert, zur Verlustfunktion erreicht. Dies kann durch eine Berücksichtigung (penalty) der Größe des Gradienten des Diskriminators an bestimmten Stellen der Eingabe umgesetzt werden (Gradient Penalty, GP). Grundsätzlich kann dies durch zufällige Interpolation zwischen einer realen Eingabe und einer erzeugten Eingabe erreicht werden.
-
Vor diesem Hintergrund schafft die vorliegende Erfindung ein Verfahren zum Trainieren eines Generative Adversarial Network (GAN), wobei das GAN einen Generator und einen Diskriminator aufweist, wobei der Generator und der Diskriminator künstliche neuronale Netze sind.
-
Das Verfahren umfasst eines Schritt des Trainierens des Diskriminators, wobei in dem Schritt des Trainierens des Diskriminators ein Parameter des Diskriminators in Abhängigkeit von einer Verlustfunktion angepasst wird, wobei die Verlustfunktion einen Term umfasst, der die Verletzung der Lipschitz-Bedingung in Abhängigkeit von einem ersten Eingabedatum und einem zweiten Eingabedatum sowie in Abhängigkeit von einer ersten Ausgabe des Diskriminators bei Verarbeitung des ersten Eingabedatums und einer zweiten Ausgabe des Diskriminators bei Verarbeitung des zweiten Eingabedatums repräsentiert, wobei das zweite Eingabedatum ausgehend von dem ersten Eingabedatum mittels Anwendung der Methode des Virtual Adversarial Training (VAT) erstellt wird.
-
Das Verfahren eignet sich im besonderen Maße für das Training von Wasserstein GAN.
-
Durch Einsatz des Verfahrens der vorliegenden Erfindung können mittels eines GAN Paare (Eingabe, Ausgabe) erzeugt werden, die die Lipschitz-Bedingung mit hoher Wahrscheinlichkeit verletzen.
-
Unter einem künstlichen neuronalen Netz ist vorliegend ein Netz aus künstlichen Neuronen zur Informationsverarbeitung zu verstehen. Künstliche neuronale Netze durchleben im Wesentlichen drei Phasen. In einer initialen Phase wird eine Basistopologie, meist abhängig von der Aufgabenstellung, vorgegeben. Danach folgt eine Trainingsphase, in der die Basistopologie zur effizienten Lösung der Aufgabenstellung mittels Trainingsdaten angelernt wird. Innerhalb der Trainingsphase kann auch die Topologie des Netzes angepasst werden. Trainingsdaten zeichnen sich dadurch aus, dass typischerweise zu den Eingabedaten die gewünschten Ausgabedaten vorliegen. Schließlich folgt eine Anwendungsphase, in der das angelernte Netz auf Eingabedaten angesetzt wird, zu denen es keine gewünschten Ausgabedaten gibt. Die Ausgabedaten des angelernten Netzes stellen dann gemäß der Aufgabestellung gesuchten Ausgabedaten dar.
-
Unter einem Parameter eines Diskriminators wird vorliegend in erster Linie ein Gewicht des künstlichen neuronalen Netzes verstanden, das den Diskriminator des GAN repräsentiert. Denkbar ist zudem die Anpassung eines Hyperparameters des GAN im Allgemeinen bzw. des Diskriminators im Speziellen.
-
Unter einem Hyperparameter wird vorliegend ein Parameter verstanden, der nicht das zu trainierende künstliche neuronale Netz an sich beschreibt, sondern bspw. dazu verwendet wird, um den Trainingsprozess des zu trainierenden Netzes zu steuern. Typische Hyperparameter sind die sog. Lernrate (Learning Rate), die in Maß für die Anpassung des Netzes pro Lerndurchlauf repräsentiert. Ein weiterer klassischer Hyperparameter ist die Anzahl der Trainingsepochen. Wobei eine Epoche den Gesamtdurchlauf der Trainingsdaten bezeichnet.
-
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird das erste Eingabedatum entweder aus einem Datenspeicher für reale Trainingsdaten entnommen wird oder mittels des Generators generiert.
-
Unter realen Trainingsdaten werden vorliegend die Daten verstanden, die originär zum Training des GAN eingesetzt werden. Reale Trainingsdaten sind dabei nicht Daten, die mittels des Generators generiert wurden.
-
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird bei der Anwendung der Methode des Virtual Adversarial Trainings (VAT) das erste Eingabedatum zur Erstellung in seine Adversarial Direction verändert, wobei die Adversarial Direction mittels Anwendung der Potenzmethode angenähert wird.
-
Bei der Anwendung der Potenzmethode wird die zu bestimmende Adversarial Direction zunächst mit Zufallswerten initialisiert. Anschließend werden diese iterativ mit den Gradienten in Bezug auf die Ausgabe des künstlichen neuronalen Netzes, d.h. in Bezug auf die Ausgabe des Diskriminators bei veränderter Eingabe ersetzt. Unter einer veränderten Eingabe kann dabei ein mittels des Generators erzeugtes Datum bzw. ein mittels des Generators abgeänderten Originaldatums verstanden werden. Die iterative Ersetzung erfolgt dadurch, dass die Unterschiede zwischen einer Originaleingabe und einer veränderten Eingabe ermittelt wird. Die Ermittlung kann nach der L1- oder L2-Norm oder nach der KL-Divergenz oder ähnlichem erfolgen. Der Unterschied wird mittels Backpropagation zurückgespielt, um eine Ableitung in Bezug auf die Veränderung zu erhalten. Anschließend wir die Veränderungen mit ihrem Gradienten ersetzt. Der Fixpunkt dieser Iteration ist die gesucht Adversarial Direction. In der Praxis ist dafür meist lediglich eine Iteration erforderlich.
-
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung umfasst das Verfahren einen ersten Schritt des Trainierens des Generators und einen zweiten Schritt des Trainierens des Generators, wobei zwischen dem ersten Schritt des Trainierens des Generators und dem zweiten Schritt des Trainierens des Generators mehrere Iterationen des Schritts des Trainierens des Diskriminators durchgeführt werden.
-
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist der Diskriminator im Wesentlichen 1-Lipschitz und optimal.
-
Dabei ist es ausreichend, wenn der Diskriminator nahe-1-Lipschitz und nahe-optimal ist.
-
Unter den Eigenschaften 1-Lipschitz und Optimalität ist vorliegend der nachstehende Zusammenhang zu verstehen.
-
Die Wasserstein-Distanz(-metrik) ist eine Distanz(-metrik) im Raum der Wahrscheinlichkeitsverteilungen. Auf dem Gebiet des generativen Modellierens ist es die Aufgabe eine Wahrscheinlichkeitsverteilung zu erlernen. Generative Adversarial Networks (GAN) sind bekannte Beispiele aus dem Bereich des generativen Modellierens, bei denen die zu erlernende Wahrscheinlichkeitsverteilung durch einen vorgegebenen Datensatz repräsentiert wird und die erlernte Wahrscheinlichkeitsverteilung durch den Generator des GAN repräsentiert wird. Wasserstein GAN stellen eine Ausführungsform eines GAN dar, bei der der Diskriminator die Wasserstein-Distanz zwischen einer realen Wahrscheinlichkeitsverteilung (repräsentiert durch den vorgegebenen Datensatz) und der generierten Wahrscheinlichkeitsverteilung (repräsentiert durch den Generator, bei dem Datensample aus einer vorgegebenen Verteilung gezogen werden und der Generator diese Datensample in Datensample umwandelt, die zu der Wahrscheinlichkeitsverteilung des vorgegeben Datensatz beinahe exakt passen) annähert bzw. erlernt. Dies geht aus von der nachstehenden Formel der Wasserstein-Distanz zwischen zwei Wahrscheinlichkeitsverteilungen P
1 und P
2 hervor.
-
Hierbei wird das Supremum der Funktion f genommen, die eine Lipschitz Norm mit 1 oder weniger haben, dies bedeutet, dass die Funktion K-Lipschitz ist mit einem K ≤ 1. Bei Wasserstein GAN wird die Funktion f durch den Diskriminator repräsentiert, die daher regularisiert werden muss, um 1-Lipschitz zu sein. Für die Regularisierung stehen unterschiedliche Verfahren zur Verfügung. Neben der vorliegenden Erfindung ist es denkbar, das Verfahren der Gradient Penality zur Regularisierung zu verwenden.
-
Der Term, dessen Supremum gesucht wird, repräsentiert den Erwartungswert der Funktion f über der Wahrscheinlichkeitsverteilung P1 (bei Wasserstein GAN entspricht dies der Ausgabe des Diskriminators, wenn reale Daten aus dem vorgegebenen Datensatz zugeführt werden) abzüglich dem Erwartungswert der Funktion f über der Wahrscheinlichkeitsverteilung P2 (bei Wasserstein GAN entspricht dies der Ausgabe des Diskriminators, wenn von dem Generator generierte Daten zugeführt werden).
-
Vor diesem Hintergrund wird unter Optimalität vorliegend verstanden, dass die Funktion f tatsächlich das Supremum der vorstehend aufgeführten Formel erreicht. In der Praxis ist dies typischerweise mit nummerischer Optimierung nicht erreichbar. Typischerweise ist es für die Funktion f (mithin für den Diskriminator) ausreichend nahe-optimal (bzw. annähernd optimal) zu sein.
-
Unter nahe-optimal ist vorliegend zu verstehen, dass der Diskriminator mehrfach soweit optimiert wird, dass er nahe an das tatsächlich Supremum heranreicht.
-
Ähnliches gilt für nahe-1-Lipschitz in diesem Zusammenhang. Da nicht zu 100 % garantiert werden kann, dass durch Regularisierung (ob durch die vorliegende Erfindung oder ein alternatives Verfahren) der Diskriminator 1-Lipschitz werden wird. Allerdings ist es möglich durch qualitative Auswertung von empirischen Beispielen zu bewerten, ob die Anzahl der Optimierungsschritte und das eingesetzte Regularisierungsverfahren ausreichend ist, um anzunehmen, dass der Diskriminator nahe-optimal und nahe-1-Lipschitz. Alternativ können Heuristiken, wie Inception Score oder Fréchet Inception Distance, für die Bewertung der generierten Samples angewendet werden.
-
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Generative Adversarial Network, wobei das Generative Adversarial Network einen Generator und einen Diskriminator aufweist, wobei der Generator und der Diskriminator künstliche neuronal Netze sind. Das Generative Adversarial Network ist dabei mittels einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung trainiert.
-
Gemäß einer Ausführungsform des Generative Adversarial Networks der vorliegenden Erfindung ist der Diskriminator im Wesentlichen 1-Lipschitz und optimal. Dabei ist es ausreichend, wenn der Diskriminator nahe-1-Lipschitz und nahe-optimal.
-
Weitere Aspekte der Erfindung sind ein Computerprogramm, ein maschinenlesbares Speichermedium sowie eine Vorrichtung zur Steuerung eines technischen Systems, insbesondere eines autonomen Systems insbesondere eines automatisiert gesteuerten Fahrzeugs.
-
Nachstehend werden Ausführungsformen der vorliegenden Erfindung anhand von Zeichnungen erläutert.
-
Es zeigen:
- 1 Blockdiagramm eines GAN trainiert gemäß der vorliegenden Erfindung;
- 2 ein Ablaufdiagramm eines Trainingsverfahrens gemäß der vorliegenden Erfindung.
-
1 zeigt ein Blockdiagramm eines GAN 100 trainiert gemäß der vorliegenden Erfindung. Das in 1 dargestellte GAN 100 umfasst einen Generator 110 und einen Diskriminator 105. Der Generator 120 wird initialisiert mit einer Zufallszahl 105, die einer Zufallsverteilung 105 entnommen werden kann und ist derart ausgestaltet, dass der Generator 110 ein zu einer vorgegebenen Domäne passende Ergebnisse generiert (fake sample). Als Zufallsverteilung 105 kommt kann eine Normalverteilung mit Erwartungswert 0 und Varianz 1 verwendet werden. Denkbar sind auch andere, insbesondere an die jeweilige Anwendung angepasste Zufallsverteilungen. Aus einer Datenquelle 115 werden reale Trainingsdaten aus der entsprechenden Domäne bereitgestellt. Typischerweise wird der Generator 110 mittels eines künstlichen neuronalen Netzwerks umgesetzt.
-
Dem Diskriminator 120 können sowohl reale Trainingsdaten aus der Datenquelle 115 als auch mittels des Generators 110 generierte Trainingsdaten zugeführt werden. Der Diskriminator 120 ist derart eingerichtet, dass er die Eingaben danach bewertet, ob die Eingaben der Zieldomäne zugeordnet werden können.
-
Die Bewertung der Eingabe wird durch den Diskriminator 120 als Ergebnis einer Verlustfunktion (Adversarial Loss) 125 ausgegebenen.
-
Bei einem Wasserstein GAN lässt sich die Verlustfunktion wie folgt darstellen:
-
Der Generator g minimiert diesen Term und der Diskriminator f, der auf Funktionen, die 1-Lipschitz sind, beschränkt ist, maximiert diesen Term. Die Minimierung über verschiedene Möglichkeiten der Funktionen g bedeutet, dass der Generator g dazu trainiert wird, diese Verlustfunktion zu minimieren. Die Maximierung über verschiedene Möglichkeiten der Funktionen f, die 1-Lipschitz sind, bedeutet, dass der Diskriminator f dazu trainiert wird, diese Verlustfunktion zu maximieren und dadurch einen Regularisierungsverlustanteil zu minimieren, der die Verletzung der 1-Lipschitz-Bedingung repräsentiert. Für diese Minimierung kann bspw. das Verfahren der vorliegenden Erfindung neben anderen Alternativen, wie bspw. des Verfahrens der Gradient Penality angewendet werden.
-
Der erste Erwartungswert des oben angegebenen Terms ist über die Wahrscheinlichkeitsverteilung Pz, die typischerweise eine vorgegebene Verteilung ist (bspw. die Normalverteilung), aus der Samples z gezogen werden, die dem Generator g zugeführt werden, um generierte Samples g(z) zu erzeugen. Die generierten Samples g(z) werden dem Diskriminator f zugeführt, um die Bewertung f(g(z)) zu erhalten, welche die Ähnlichkeit zu echten Samples repräsentiert.
-
Die Verlustfunktion der vorliegenden Erfindung wird dabei gemäß dem nachstehenden Term durch den Generator
110 minimiert und durch den Diskriminator
120 maximiert.
-
Dabei repräsentiert G den Generator 110 der vorliegenden Erfindung. D repräsentiert den zu trainierenden Diskriminator 120 aus der Menge D der in Frage kommenden Diskriminatoren. ℙr repräsentiert die Wahrscheinlichkeitsverteilung des zu Trainingsdatensatzes. ℙg repräsentiert die Wahrscheinlichkeitsverteilung des Generators 110. Durch das Trainieren des Diskriminators 120 diese Verlustfunktion zu maximieren, wird die angenäherte Wasserstein-Distanz zwischen der Wahrscheinlichkeitsverteilung ℙr des Trainingsdatensatzes und der Wahrscheinlichkeitsverteilung ℙg des Generators 110 minimiert. Dadurch wird annähernd die Wahrscheinlichkeitsverteilung des Trainingsdatensatzes wiederherstellt, was im Allgemeinen dem Ziel des generativen Modellierens entspricht.
-
Gemäß der vorliegenden Erfindung können sowohl reale Trainingsdaten aus der Datenquelle 115 als auch mittels des Generators 110 generierte Trainingsdaten zugeführt werden. In der Komponente VALR 116 wird mittels der Potenzmethode die Adversarial Direction ermittelt. Diese wird genutzt, um die Eingangsdaten Eingangsdaten der Komponente, demnach entweder ausgehend von realen Trainingsdaten oder von mittels des Generators 110 generierten Trainingsdaten, in die ermittelte Adversarial Direction zu ändern und als Ausgabedaten sowohl an den Diskriminator 120 als auch zur Berechnung der Verletzung der Lipschitz Bedingung 126 auszugeben. Zur Berechnung der Verletzung der Lipschitz Bedingung wird ferner die Ausgabe des Diskriminators 120 zugeführt.
-
Die Verlustfunktion 125 wird ausgehend von der Ausgabe des Diskriminators 120 berechnet. Grundsätzlich kann eine Verlustfunktion 125 durch Aufnahme eines entsprechenden Terms regularisiert werden. Ein entsprechender Regularisierungsterm wird dazu typischerweise mittels eines Hyperparameters zur Steuerung des Einflusses des Regularisierungsterms zu dem Ergebnis der Verlustfunktion hinzuaddiert. So kann bspw. die Gradientenbildung gesteuert werden, damit das zu trainierende GAN nicht zu schnell ich eine Sättigung der Gradienten läuft und dadurch die Trainingsfortschritte beeinträchtigt werden.
-
Handelt es sich bei dem zu trainierenden GAN um ein Wasserstein GAN, dann muss der Diskriminator
120 zumindest nahe-1-Lipschitz sein. Dies in der Praxis zu erreichen ist eine sehr aufwändige Aufgabe. Eine erste effiziente Möglichkeit diese Bedingung für den Diskriminator
120 zu erreichen ist unter dem Begriff Gradient Penalty (GP) bekannt. GP basiert auf der Erkenntnis, dass das Supremum des Gradienten einer Funktion f seiner kleinsten Lipschitz Konstante entspricht. Der nachstehende Term drück dies aus:
-
Hier repräsentiert
den Erwartungswert über Pi, welches eine zufällige Menge aus Samples gezogen aus Trainingsdatensatz als auch generiert durch den Generator
110 darstellt. D steht für den Diskriminator
120. Durch die Minimierung dieses Terms wird der Diskriminator
120 dahingehend regularisiert, dass seine Norm
1 beträgt. Dies wiederrum bedeutet, dass der Diskriminator nahe-1-Lipschitz erfüllt.
-
Das Verfahren der vorliegenden Erfindung nimmt dabei einen anderen Weg und regularisiert die Verletzung der Lipschitz-Bedingung explizit und nicht indirekt über die Regularisierung des Gradienten. Der nachstehende Term repräsentiert die Lipschitz-Norm, die im Rahmen der vorliegenden Erfindung
1 sein sollte:
-
Gemäß der vorliegenden Erfindung kann die Verlustfunktion
125 in Abhängigkeit von der Berechnung der Verletzung der Lipschitz Bedingung
126 regularisiert werden. Dies kann durch die Ersetzung des Regularisierungsterms zur sog. Gradient Penality mit dem nachstehenden Term zur Darstellung der Verletzung der Lipschitz Bedingung erreicht werden.
-
Dieser Regularisierungsterm wird durch das Verfahren der vorliegenden Erfindung minimiert. Dabei wird lediglich der positive Anteil der Differenz weiterverwendet. Dadurch wird der Termin nur dann nichtnull, wenn eine Verletzung der Lipschitz-Bedingung vorliegt und bleibt Null, wenn der Quotient unterhalb von 1 bleibt.
-
Der Erwartungswert ist über PT, dies steht dafür, dass ein Sample y durch Anwendung der Methode des Virtual Adversarial Trainings einem Sample x abgeleitet ist, wobei ein Sample x entweder aus dem Trainingsdatensatz stammt oder ein durch den Generator 110 generiertes Sample ist. Hierin besteht der Kern der vorliegenden Erfindung, würden die Samples x und y lediglich zufällig gezogen werden, würde der vorstehende Term nicht nahe am Supremum des Terms der Lipschitz-Norm liegen.
-
2 zeigt ein Ablaufdiagramm einer Ausführungsform des Verfahrens zum Trainieren eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung.
-
Im Schritt 201 wird Diskriminators trainiert, wobei in dem Schritt des Trainierens des Diskriminators ein Parameter des Diskriminators in Abhängigkeit von einer Verlustfunktion angepasst wird, wobei die Verlustfunktion einen Term umfasst, der die Verletzung der Lipschitz-Bedingung in Abhängigkeit von einem ersten Eingabedatum und einem zweiten Eingabedatum sowie in Abhängigkeit von einer ersten Ausgabe des Diskriminators bei Verarbeitung des ersten Eingabedatums und einer zweiten Ausgabe des Diskriminators bei Verarbeitung des zweiten Eingabedatums repräsentiert, wobei das zweite Eingabedatum ausgehend von dem ersten Eingabedatum mittels Anwendung der Methode des Virtual Adversarial Training erstellt wird.