DE102022202017A1

DE102022202017A1 - Konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik

Info

Publication number: DE102022202017A1
Application number: DE102022202017.0A
Authority: DE
Inventors: Zijie Wang; Liang Gou; Liu Ren; Wenbin He
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-03-01
Filing date: 2022-02-28
Publication date: 2022-09-01
Also published as: CN114997362A; US20220277187A1; US11763135B2

Abstract

Verfahren und Systeme zur Durchführung einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik. Ein System weist einen elektronischen Prozessor auf, der dazu ausgelegt ist, ein Eingabebild abzurufen. Der elektronische Prozessor ist auch dazu ausgelegt, eine konzeptbasierte semantische Bilderzeugung basierend auf dem Eingabebild durchzuführen. Der elektronische Prozessor ist auch dazu ausgelegt, ein konzeptbasiertes semantisches kontradiktorisches Lernen unter Verwendung eines Satzes von semantischen latenten Räumen durchzuführen, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt werden. Der elektronische Prozessor ist auch dazu ausgelegt, ein kontradiktorisches Bild basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen zu erzeugen. Der elektronische Prozessor ist auch dazu ausgelegt, ein Zielmodell unter Verwendung des kontradiktorischen Bildes zu testen.

Description

Technisches Gebiet
Ausführungsformen betreffen ein konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik.
Kurzdarstellung
Es besteht eine Herausforderung darin, Testfälle effizient zu erzeugen, um die Leistung von komplizierten Modellen künstlicher Intelligenz („Kl“), wie etwa auf tiefen neuronalen Netzwerken („DNN“) basierende Bildklassifizierer, Objektdetektoren, und dergleichen, zu bewerten und zu validieren. Beispielsweise verwenden Forscher in der Gemeinde der medizinischen Bildgebung generative kontradiktorische Netzwerke („GANs“), um neue Bilder, wie etwa Magnetresonanzbilder des Gehirns, zu erzeugen, um trainierte Bildklassifizierungsmodelle zu validieren. Da das Erfassen diagnostischer medizinischer Bilder teuer ist, bieten GANs eine effiziente Möglichkeit, um realistische neue Testbilder zu erzeugen. Als ein anderes Beispiel ist es im Bereich des autonomen Fahrens entscheidend, trainierte Kl-Modelle in diversen Szenarien zu testen, bevor die Kl-Modelle im großen Umfang in autonomen Fahrsystemen eingesetzt werden. Es ist jedoch eine Herausforderung, diverse reale Verkehrsdaten zu sammeln. Daher werden dreidimensionale („3D“) simulationsbasierte Verfahren verwendet, um Testfälle für autonom fahrende Kl-Modelle, wie beispielsweise einen DNN-basierten Fußgängerdetektor, zu erzeugen.
Neueste Fortschritte bei Deep-Generation-Modellen und kontradiktorischen Angriffen zeigen vielversprechende Richtungen für eine solche Testfallerzeugung auf. Deep-Generation-Modelle können eine große Menge an Testfällen erzeugen, die realen Daten ähneln. Beispielsweise ist StyleGAN, ein tiefes GAN-Modell, dazu in der Lage, gefälschte menschliche Porträts zu erstellen, die täuschend echt wirken wie reale menschliche Gesichter. Kontradiktorische Angriffsansätze können Schwachstellen eines Maschinenlernmodells effizient untersuchen. Als ein Beispiel für einen kontradiktorischen Angriff auf ein DNN-Modell kann ein Einfügen von kleinem und für den Menschen nicht wahrnehmbarem Rauschen in Eingabebilder (beispielsweise ein Bild mit einem „lächelnden Gesicht“) das DNN-Modell leicht dazu verleiten, falsche Vorhersagen zu treffen (beispielsweise, das Eingabebild als ein Bild eines „nicht lächelnden Gesichts“ zu klassifizieren).
Trotz jüngster Fortschritte bei Deep-Generation-Modellen und kontradiktorischen Angriffen für eine solche Testfallerzeugung gibt es mehrere Herausforderungen, sinnvolle Testfälle unter Verwendung von kontradiktorischen Angriffsverfahren zu erzeugen, um DNN-Modelle zu bewerten und zu validieren. Zu solchen Herausforderungen gehören beispielsweise, wie man aussagekräftige Testfälle mit interpretierbaren High-Level-Konzepten erzeugt, wie man die Konzepte für die kontradiktorische Erzeugung versteht und steuert (oder abstimmt), wie man diverse Testfälle für eine breite Testabdeckung erzeugt, und dergleichen.
In Bezug auf ein Erzeugen sinnvoller Testfälle mit interpretierbaren Konzepten auf hoher Ebene ist es eine Herausforderung, kontradiktorische Testfälle mit interpretierbaren Konzepten auf hoher Ebene zu erzeugen. Wie oben erwähnt, wird bei einem traditionellen kontradiktorischen Angriffsverfahren ein kleines zufälliges Rauschen vorgefunden, das die Modellklassifikation erheblich verändert. Diese Verfahren zielen darauf ab, das Rauschen so zu minimieren, dass Menschen das Rauschen nicht wahrnehmen können. Dies führt jedoch dazu, dass ein erzeugtes kontradiktorisches Beispiel genauso aussieht wie das Originalbild. Daher spiegeln das Rauschen und die erzeugten kontradiktorischen Beispiele keine realistischen Phänomene (wie etwa Beleuchtung und Hintergrundfarbe) wider oder haben semantische Bedeutungen (wie etwa die Frisur und das Tragen einer Brille). Mit anderen Worten, Menschen können die Schwäche von DNN-Modellen nicht von traditionellen kontradiktorischen Testfällen auf reale Szenarien verallgemeinern.
in Bezug auf ein Verstehen und Lenken der Konzepte für die kontradiktorische Erzeugung sind nicht triviale Anstrengungen erforderlich, um die Konzepte für die kontradiktorische Erzeugung zu verstehen und zu steuern (oder abzustimmen). Um Kl-Modelle umfassend zu testen, müssen Ingenieure für maschinelles Lernen die Erzeugung von Testfällen einfach interpretieren und steuern können. Das generative Modell-GAN gilt jedoch als Black-Box-Modell, bei dem es für Benutzer schwierig ist, den Erzeugungsprozess sinnvoll zu gestalten oder zu steuern. Daher ist es schwierig, Testfälle mit gewünschten Eigenschaften intuitiv zu erzeugen.
In Bezug auf die Erzeugung diverser Testfälle ist es wünschenswert, dass das Verfahren zum Erzeugen diverser kontradiktorischer Testfälle eine breite Testabdeckung aufweist. Um Kl-Modelle unter unterschiedlichen Anwendungsszenarien zu testen, müssen erzeugte Testfälle diverse Eigenschaften aufweisen. Bei den aktuellen Erzeugungsverfahren weisen Testfälle tendenziell einheitliche Merkmale auf, die breite reale Szenarien nicht abdecken können.
Um diese und andere Probleme zu lösen, stellen die hierin beschriebenen Ausführungsformen unter anderem Verfahren und Systeme zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit interpretierbarer, steuerbarer und diverser Semantik bereit. Die hierin beschriebenen Ausführungsformen weisen Komponenten einer konzeptbasierten semantischen Bilderzeugung, einer konzeptbasierten semantischen kontradiktorischen Testfallerzeugung und einer semantischen kontradiktorischen Analyse auf. Dementsprechend ermöglichen die hierin beschriebenen Ausführungsformen eine konzeptbasierte kontradiktorische Erzeugung, die auf effiziente Weise diverse Testdaten mit interpretierbarer und steuerbarer Semantik erzeugt.
Dementsprechend stellen die hierin beschriebenen Ausführungsformen vorteilhafterweise ein konzeptbasiertes kontradiktorisches Erzeugungs-Framework mit einem Entwirrungs-Darstellungslernen und einem generativen kontradiktorischen Netzwerk, ein Erzeugungs-Framework mit getrennten Konzepten auf hoher Ebene und undurchlässigen Merkmalen auf niedriger Ebene im latenten Raum, einen kontradiktorischen Black-Box-Angriffsansatz, um konzeptbasierte kontradiktorische Ergebnisse zu erzeugen, ohne die Parameter eines Zielmodells zu kennen, ein steuerbares Angriffsverfahren, um diverse Ergebnisse zu erzeugen, indem die Konzepte auf hoher Ebene und undurchlässigen Merkmale auf niedriger Ebene ausgeglichen werden, und eine visuelle Zusammenfassung, um umsetzbare Einblicke in die erzeugten kontradiktorischen Muster zu gewinnen, bereit.
Beispielsweise stellt eine Ausführungsform ein System zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik bereit. Das System weist einen elektronischen Prozessor auf, der dazu ausgelegt, ein Eingabebild abzurufen. Der elektronische Prozessor ist auch dazu ausgelegt, eine konzeptbasierte semantische Bilderzeugung basierend auf dem Eingabebild durchzuführen. Der elektronische Prozessor ist auch dazu ausgelegt, ein konzeptbasiertes semantisches kontradiktorisches Lernen unter Verwendung eines Satzes von semantischen latenten Räumen durchzuführen, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt werden. Der elektronische Prozessor ist auch dazu ausgelegt, ein kontradiktorisches Bild basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen zu erzeugen. Der elektronische Prozessor ist auch dazu ausgelegt, ein Zielmodell unter Verwendung des kontradiktorischen Bildes zu testen.
Eine andere Ausführungsform stellt ein Verfahren zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik bereit. Das Verfahren weist ein Abrufen eines Eingabebildes auf. Das Verfahren weist auch ein Durchführen einer konzeptbasierten semantischen Bilderzeugung mit einem elektronischen Prozessor basierend auf dem Eingabebild auf. Das Verfahren weist auch ein Durchführen eines konzeptbasierten semantischen kontradiktorischen Lernens mit dem elektronischen Prozessor unter Verwendung eines Satzes von semantischen latenten Räumen, die als Teil des Durchführens der konzeptbasierten semantischen Bilderzeugung erzeugt werden, auf. Das Verfahren weist auch ein Erzeugen eines kontradiktorischen Bildes mit dem elektronischen Prozessor basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen auf. Das Verfahren weist auch ein Testen eines Zielmodells mit dem elektronischen Prozessor unter Verwendung des kontradiktorischen Bildes auf. Das Verfahren weist auch ein Erzeugen einer Leistungszusammenfassung des Zielmodells mit dem elektronischen Prozessor zum Anzeigen auf.
Noch eine andere Ausführungsform stellt ein nichtflüchtiges, computerlesbares Medium bereit, das Anweisungen speichert, die, wenn sie von einem elektronischen Prozessor ausgeführt werden, einen Satz von Funktionen ausführen. Der Funktionssatz weist ein Abrufen eines Eingabebildes auf. Der Satz von Funktionen weist auch ein Durchführen einer konzeptbasierten semantischen Bilderzeugung basierend auf dem Eingabebild auf. Der Satz von Funktionen weist auch ein Durchführen eines konzeptbasierten semantischen kontradiktorischen Lernens unter Verwendung eines Satzes von semantischen latenten Räumen, die als Teil des Durchführens der konzeptbasierten semantischen Bilderzeugung erzeugt werden, auf. Der Satz von Funktionen weist auch ein Erzeugen eines kontradiktorischen Bildes basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen auf. Der Satz von Funktionen weist auch ein Testen eines Zielmodells unter Verwendung des kontradiktorischen Bildes auf. Der Satz von Funktionen weist auch ein Erzeugen einer Leistungszusammenfassung des Zielmodells zum Anzeigen auf.
Andere Aspekte und Ausführungsformen werden durch Betrachtung der ausführlichen Beschreibung und der beigefügten Zeichnungen ersichtlich.
Figurenliste

1 veranschaulicht schematisch ein System zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik gemäß einigen Ausführungsformen.
2 veranschaulicht schematisch einen Server, der in dem System von 1 enthalten ist, gemäß einigen Ausführungsformen.
Die 3A-3B veranschaulichen beispielhafte Eingabebilder
4 ist ein Flussdiagramm, das ein Verfahren zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik darstellt, das durch das System von 1 durchgeführt wird, gemäß einigen Ausführungsformen.
5 veranschaulicht eine Visualisierung eines trainierten semantischen latenten Raums eines Variations-Autoencoders, der sowohl kontinuierliche latente Dimensionen als auch diskrete latente Dimensionen aufweist, gemäß einigen Ausführungsformen.
6 veranschaulicht ein semantisches kontradiktorisches Lernen mit BlackBox-Abfragen gemäß einigen Ausführungsformen.

Ausführliche Beschreibung
Bevor irgendwelche Ausführungsformen im Einzelnen erklärt werden, versteht es sich, dass die Ausführungsformen in ihrer Anwendung nicht auf die Einzelheiten der Konstruktion und die Anordnung von Komponenten beschränkt sind, die in der folgenden Beschreibung dargelegt oder in den folgenden Zeichnungen veranschaulicht werden. Andere Ausführungsformen sind möglich, und hier beschriebenen und/oder veranschaulichten Ausführungsformen können auf verschiedene Weise praktiziert oder ausgeführt werden.
Es sollte auch beachtet werden, dass eine Mehrzahl von Hardware- und Software-basierten Vorrichtungen sowie eine Mehrzahl von unterschiedlichen strukturellen Komponenten verwendet, werden können, um die hierin beschriebenen Ausführungsformen zu implementieren. Darüber hinaus können Ausführungsformen Hardware, Software und elektronische Komponenten oder Module enthalten, die zu Zwecken der Erklärung so veranschaulicht und beschrieben werden können, als ob die Mehrheit der Komponenten ausschließlich in Hardware implementiert wäre. Jedoch würde ein Durchschnittsfachmann basierend auf einer Lektüre dieser ausführlichen Beschreibung erkennen, dass in mindestens einer Ausführungsform die auf Elektronik basierenden Aspekte der hierin beschriebenen Ausführungsformen in Software implementiert sein können (beispielsweise gespeichert auf einem nichtflüchtigen, computerlesbaren Medium), die von einem oder mehreren elektronischen Prozessoren ausgeführt werden kann. Somit sollte angemerkt werden, dass eine Mehrzahl von Hardware- und Software-basierten Vorrichtungen sowie eine Mehrzahl von unterschiedlichen strukturellen Komponenten verwendet, werden können, um verschiedene Ausführungsformen zu implementieren. Es versteht sich auch, dass, obwohl bestimmte Zeichnungen Hardware und Software veranschaulichen, die sich in bestimmten Vorrichtungen befinden, diese Darstellungen nur zur Veranschaulichung dienen. In einigen Ausführungsformen können die veranschaulichten Komponenten kombiniert oder in separate Software, Firmware und/oder Hardware unterteilt werden. Beispielsweise können Logik und Verarbeitung auf mehrere elektronische Prozessoren verteilt werden, anstatt in einem einzigen elektronischen Prozessor angeordnet zu sein und von diesem ausgeführt zu werden. Unabhängig davon, wie sie kombiniert oder aufgeteilt werden, können sich Hardware- und Softwarekomponenten auf derselben Rechenvorrichtung befinden oder können auf unterschiedliche Rechenvorrichtungen verteilt sein, die durch eines oder mehrere Netzwerke oder andere geeignete Kommunikationsverbindungen verbunden sind.
1 veranschaulicht ein System 100 zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung gemäß einigen Ausführungsformen. In dem veranschaulichten Beispiel weist das System 100 ein Benutzergerät 105 und einen Server 110 auf. In einigen Ausführungsformen weist das System 100 weniger, zusätzliche oder andere Komponenten auf, als in 1 veranschaulicht wird. Beispielsweise kann das System 100 mehrere Benutzergeräte 105, mehrere Server 110 oder eine Kombination davon aufweisen.
Das Benutzergerät 105 und der Server 110 kommunizieren über eines oder mehrere drahtgebundene oder drahtlose Kommunikationsnetzwerke 115. Teile der Kommunikationsnetzwerke 115 können unter Verwendung eines Weitverkehrsnetzwerks, wie etwa des Internets, eines lokalen Netzwerks, wie etwa ein Bluetooth™-Netzwerk oder Wi-Fi, und Kombinationen oder Abkömmlingen davon, implementiert werden. Alternativ oder zusätzlich kommunizieren Komponenten des Systems 100 in einigen Ausführungsformen direkt miteinander, anstatt über das Kommunikationsnetzwerk 115 zu kommunizieren. Außerdem kommunizieren in einigen Ausführungsformen die Komponenten des Systems 100 über eine oder mehrere zwischengeschaltete Vorrichtungen, die in 1 nicht veranschaulicht sind.
Der Server 110 weist eine Rechenvorrichtung, wie etwa einen Server, eine Datenbank oder dergleichen auf. Wie in 2 veranschaulicht wird, weist der Server 110 einen elektronischen Prozessor 200, einen Speicher 205 und eine Kommunikationsschnittstelle 210 auf. Der elektronische Prozessor 200, der Speicher 205 und die Kommunikationsschnittstelle 210 kommunizieren drahtlos über eine oder mehrere Kommunikationsleitungen oder -busse oder eine Kombination davon. Der Server 110 kann in verschiedenen Konfigurationen zusätzliche Komponenten außer denen in 2 veranschaulichten aufweisen. Beispielsweise kann der Server 110 auch eine oder mehrere Mensch-Maschine-Schnittstellen aufweisen, wie etwa eine Tastatur, ein Tastenfeld, eine Maus, einen Joystick, einen Berührungsbildschirm, eine Anzeigevorrichtung, einen Drucker, einen Lautsprecher und dergleichen, die Eingaben von einem Benutzer empfangen und Ausgaben an einen Benutzer bereitstellen, oder eine Kombination davon. Der Server 110 kann auch zusätzliche Funktionalität außer der hierin beschriebenen Funktionalität ausführen. Außerdem kann die hierin als von dem Server 110 ausgeführt beschriebene Funktionalität auf mehrere Server oder Vorrichtungen verteilt sein (beispielsweise als Teil eines Cloud-Dienstes oder einer Cloud-Computing-Umgebung).
Die Kommunikationsschnittstelle 210 kann einen Transceiver aufweisen, der mit der Benutzervorrichtung 105 über das Kommunikationsnetzwerk 115 und optional eines oder mehrere andere Kommunikationsnetzwerke oder - verbindungen kommuniziert. Der elektronische Prozessor 200 weist einen Mikroprozessor, eine anwendungsspezifische integrierte Schaltung („ASIC“) oder eine andere geeignete elektronische Vorrichtung zum Verarbeiten von Daten auf, und der Speicher 205 weist ein nichtflüchtiges, computerlesbares Speichermedium auf. Der elektronische Prozessor 200 ist dazu ausgelegt, auf computerlesbare Anweisungen („Software“), die in dem Speicher 205 gespeichert sind, zuzugreifen und diese auszuführen. Die Software kann Firmware, eine oder mehrere Anwendungen, Programmdaten, Filter, Regeln, eines oder mehrere Programmmodule und andere ausführbare Anweisungen aufweisen. Beispielsweise kann die Software Anweisungen und zugeordnete Daten zum Ausführen eines Satzes von Funktionen, einschließlich der hierin beschriebenen Verfahren, aufweisen.
Beispielsweise kann, wie in 2 veranschaulicht wird, der Speicher 205 eine Lern-Engine 220 und eine Modelldatenbank 225 speichern. In einigen Ausführungsformen entwickelt die Lern-Engine 220 eines oder mehrere Deep-Learning-Modelle unter Verwendung einer oder mehrerer maschineller Lernfunktionen. Maschinelle Lernfunktionen sind im Allgemeinen Funktionen, die es einer Computeranwendung ermöglichen, zu lernen, ohne explizit programmiert zu werden. Insbesondere ist die Lern-Engine 220 dazu ausgelegt, einen Algorithmus oder ein Modell basierend auf Trainingsdaten zu entwickeln. Um beispielsweise überwachtes Lernen durchzuführen, weisen die Trainingsdaten beispielhafte Eingaben und entsprechende gewünschte (beispielsweise tatsächliche) Ausgaben auf, und die Lern-Engine entwickelt schrittweise ein Modell (beispielsweise ein Deep-Learning-Modell, wie etwa ein Objekterkennungsmodell, ein semantisches Segmentierungsmodell, oder dergleichen), das Eingaben den in den Trainingsdaten enthaltenen Ausgaben zuordnet. Ein von der Lern-Engine 220 durchgeführtes maschinelles Lernen kann unter Verwendung verschiedener Arten von Verfahren und Mechanismen durchgeführt werden, einschließlich, aber nicht beschränkt auf Entscheidungsbaumlernen, Assoziationsregellernen, künstliche neuronale Netze, induktive Logikprogrammierung, Support-Vektor-Maschinen, Clustering, Bayes'sche Netze, Verstärkungslernen, Darstellungslernen, Ähnlichkeits- und Metriklernen, Sparse-Dictionary-Lernen und genetische Algorithmen. Diese Ansätze ermöglichen es der Lern-Engine 220, Daten aufzunehmen, zu parsen und zu verstehen, und Modelle für die Datenanalyse schrittweise zu verfeinern.
Von der Lern-Engine 220 erzeugte Modelle werden in der Modelldatenbank 225 gespeichert. Modelle, die in der Modelldatenbank 225 gespeichert sind, können beispielsweise ein Bildklassifizierungsmodell, ein Objekterkennungsmodell, ein DNN-basiertes Fußgängererkennungsmodell und dergleichen aufweisen. Wie in 2 veranschaulicht wird, ist die Modelldatenbank 225 in dem Speicher 205 des Servers 110 enthalten. In einigen Ausführungsformen ist die Modelldatenbank 225 jedoch in einer separaten Vorrichtung enthalten, auf die der Server 110 zugreifen kann (in dem Server 110 enthalten oder außerhalb des Servers 110).
Darüber hinaus weist, wie in 2 veranschaulicht wird, der Speicher 205 eine kontradiktorische Erzeugungsanwendung 230 auf. Die kontradiktorische Erzeugungsanwendung 230 ist eine Softwareanwendung, die durch den elektronischen Prozessor 200 ausgeführt werden kann. Wie nachstehend ausführlicher beschrieben wird, führt der elektronische Prozessor 200 die kontradiktorische Erzeugungsanwendung 230 zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung aus, die diverse Testdaten mit interpretierbarer und steuerbarer Semantik effizient erzeugt. Wie nachstehend ausführlicher beschrieben wird, führt die Anwendung zur kontradiktorischen Erzeugung 230 in einigen Ausführungsformen beispielsweise eine konzeptbasierte semantische Bilderzeugung durch und führt ein konzeptbasiertes semantisches kontradiktorisches Lernen durch, um eines oder mehrere kontradiktorische Beispiele oder Bilder zu erzeugen. Die kontradiktorische Erzeugungsanwendung 230 kann das eine oder die mehreren kontradiktorischen Beispiele oder Bilder verwenden, um Modelltests und semantische kontradiktorische Analysen durchzuführen.
Der Speicher 205 weist auch eine Sammlung oder einen Satz von Eingabebildern 240 auf. Die 3A und 3B veranschaulichen beispielhafte Eingabebilder 240. Als ein Beispiel veranschaulicht 3A eine Fahrszene als ein beispielhaftes Eingabebild 240. Wie in 3A gezeigt wird, weist die Fahrszene eine Mehrzahl von Begrenzungsrahmen 305 auf, wobei jeder Begrenzungsrahmen 305 einem entsprechenden Objekt 310 zugeordnet ist. In einigen Ausführungsformen erkennt oder identifiziert ein Deep-Learning-Modell (beispielsweise ein Modell, das in der Modelldatenbank 225 gespeichert ist) ein Objekt 310 in einer Fahrszene, und positioniert oder erzeugt einen Begrenzungsrahmen 305 um das Objekt 310 herum. Als noch ein anderes Beispiel veranschaulicht 3B ein menschliches Porträt als ein beispielhaftes Eingabebild 240. Obwohl 2 veranschaulicht, dass das/die Eingabebild(er) 240 in dem Speicher 205 des Servers 110 enthaltene(n) ist/sind, ist/sind in einigen Ausführungsformen das/die Eingabebild(er) 240 in einer separaten Vorrichtung enthalten, auf die der Server 110 zugreifen kann (in dem Server 110 enthalten oder außerhalb des Servers 110).
Das Benutzergerät 105 weist auch ein Rechenvorrichtung auf, wie etwa einen Desktop-Computer, einen Laptop-Computer, einen Tablet-Computer, ein Endgerät, ein Smartphone, ein Smart TV, ein Smart Wearable oder eine andere geeignete Rechenvorrichtung, die eine Benutzerschnittstelle bildet. Das Benutzergerät 105 kann von einem Endbenutzer verwendet werden, um mit der Anwendung zur kontradiktorischen Erzeugung 230 zu interagieren. In einigen Ausführungsformen kann der Endbenutzer mit der Anwendung zur kontradiktorischen Erzeugung 230 interagieren, um Funktionstests durchzuführen, die die Leistung (beispielsweise eine Robustheit und eine potenzielle Schwachstelle) eines Deep-Learning-Modells (beispielsweise eines Ziel-Deep-Learning-Modells) untersuchen, wie nachstehend ausführlicher beschrieben wird. Alternativ oder zusätzlich kann der Endbenutzer das Benutzergerät 105 verwenden, um mit Funktionstestergebnissen zu interagieren, wie etwa einer Leistungszusammenfassung der Funktionstestergebnisse (oder kontradiktorischen Angriffsergebnisse), die von der kontradiktorischen Erzeugungsanwendung 230 bereitgestellt wird, wie unten ausführlicher beschrieben wird. In einigen Ausführungsformen erzeugt oder stellt die Anwendung 230 zur kontradiktorischen Erzeugung beispielsweise ein visuelles Analysetool bereit, auf das ein Endbenutzer zugreifen kann, um Modelltests und semantische kontradiktorische Analysen durchzuführen.
Obwohl dies in 1 nicht veranschaulicht wird, kann die Benutzervorrichtung 105 ähnliche Komponenten wie der Server 110 aufweisen, wie etwa einen elektronischen Prozessor (beispielsweise einen Mikroprozessor, eine ASIC oder eine andere geeignete elektronische Vorrichtung), einen Speicher (beispielsweise ein nichtflüchtiges, computerlesbaren Speichermedium), eine Kommunikationsschnittstelle, wie etwa einen Transceiver, zum Kommunizieren über das Kommunikationsnetzwerk 115 und optional eines oder mehrere zusätzliche Kommunikationsnetzwerke oder -verbindungen und eine oder mehrere Mensch-Maschine-Schnittstellen. Zum Kommunizieren mit dem Server 110 kann das Benutzergerät 105 beispielsweise eine Browseranwendung oder eine dedizierte Softwareanwendung speichern, die von einem elektronischen Prozessor ausgeführt werden kann. Das System 100 wird hier so beschrieben, dass es einen Funktionstestdienst durch den Server 110 bereitstellt. In anderen Ausführungsformen kann die hierin als durch den Server 110 ausgeführt beschriebene Funktionalität jedoch lokal durch das Benutzergerät 115 ausgeführt werden. Beispielsweise kann in einigen Ausführungsformen die Benutzervorrichtung 105 die Anwendung zur kontradiktorischen Erzeugung 230 speichern.
4 ist ein Flussdiagramm, das ein Verfahren 400 zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung veranschaulicht, die durch das System 100 durchgeführt wird, gemäß einigen Ausführungsformen. Das Verfahren 400 wird als von dem Server 110 durchgeführt beschrieben, und insbesondere wird die kontradiktorischen Erzeugungsanwendung 230 von dem elektronischen Prozessor 200 durchgeführt. Wie oben angemerkt wird, kann die in Bezug auf das Verfahren 400 beschriebene Funktionalität jedoch von anderen Vorrichtungen durchgeführt werden, wie etwa durch das Benutzergerät 105, oder auf eine Mehrzahl von Geräten verteilt sein, wie etwa eine Mehrzahl von Servern, die in einem Cloud-Dienst enthalten sind.
Wie in 4 veranschaulicht wird, weist das Verfahren 400 ein Abrufen eines Eingabebildes 240 auf (bei Block 405). In einigen Ausführungsformen ruft der elektronische Prozessor 200 das/die Eingabebild(er) 240 aus dem Speicher 205 ab. Alternativ oder zusätzlich kann der elektronische Prozessor 200 das/die Eingabebild(er) 240 von einer separaten Vorrichtung abrufen, auf die der Server 110 zugreifen kann (in dem Server 110 enthalten, oder außerhalb des Servers 110, wie beispielsweise eine separate Datenbank).
Nach dem Abrufen des Eingabebildes 240 (bei Block 405) führt der elektronische Prozessor 200 eine konzeptbasierte semantische Bilderzeugung basierend auf dem Eingabebild 240 durch (bei Block 410). In einigen Ausführungsformen führt der elektronische Prozessor 200 eine konzeptbasierte semantische Bilderzeugung unter Verwendung von entwirrtem Darstellungslernen und erzeugendem kontradiktorischem Lernen durch. Dementsprechend trainiert der elektronische Prozessor 200 in einigen Ausführungsformen einen semantischen Bildgenerator unter Verwendung eines Ansatzes, der entwirrtes Darstellungslernen (wie beispielsweise einen Variations-Autoencoder, einen Beta-Variations-Autoencoder oder dergleichen) und generatives kontradiktorisches Lernen (wie etwa ein GAN) kombiniert. Der erlernte entwirrte latente Raum (beispielsweise der trainierte semantische Bildgenerator) codiert sowohl kontinuierliche als auch kategoriale Merkmale oder Dimensionen. Ein Endbenutzer kann den erlernten entwirrten latenten Raum verwenden, um Konzepte auf hoher Ebene zu codieren und gefälschte Bilder mit hoher Wiedergabetreue auf semantische Weise zu erzeugen. Dementsprechend führt der elektronische Prozessor 200 in einigen Ausführungsformen die konzeptbasierte semantische Bilderzeugung durch Trainieren eines Bildgenerators mit entwirrter kontinuierlicher und diskreter Darstellung und Trainieren eines generativen kontradiktorischen Netzwerks basierend auf einem durch den Bildgenerator entwirrten semantischen latenten Raum durch.
Der elektronische Prozessor 200 kann den Bildgenerator mit entwirrter kontinuierlicher und diskreter Darstellung (d. h. mit interpretierbarer latenter Darstellung) trainieren. In einigen Ausführungsformen trainiert der elektronische Prozessor 200 den Bildgenerator als einen Variations-Autoencoder (beispielsweise ein entwirrtes Darstellungsmodell). In einigen Ausführungsformen trainiert der elektronische Prozessor 200 den Bildgenerator durch Erlernen eines entwirrten latenten Raums (beispielsweise des Eingabebilds 240) mit sowohl kontinuierlichen als auch diskreten Codierungen, und richtet den latenten Raum mit semantischen Merkmalen aus (beispielsweise als einen Encoder). Dann kann der Bildgenerator aus diesem semantischen latenten Raum eines oder mehrere neue Bilder erzeugen (beispielsweise als Decoder). Daher kann die Semantik der erzeugten kontradiktorischen Bilder leicht gesteuert und verstanden werden, wenn kontradiktorische Beispiele oder Bilder erzeugt werden (wie nachstehend ausführlicher beschrieben wird). Dementsprechend trainiert der elektronische Prozessor 200 in einigen Ausführungsformen den Bildgenerator, indem er einen Encoder trainiert, einen entwirrten latenten Raum mit kontinuierlichen und diskreten Codierungen (beispielsweise des Eingabebildes) zu lernen, und den entwirrten latenten Raum mit semantischen Merkmalen als semantischen latenten Raum auszurichten und eines Decoder zu trainieren, um aus dem semantischen latenten Raum ein neues Bild zu erzeugen.
Als ein Beispiel veranschaulicht 5 eine Visualisierung eines trainierten semantischen latenten Raums eines Variations-Autoencoders, der sowohl kontinuierliche latente Dimensionen als auch diskrete latente Dimensionen aufweist (im Kontext eines Anwendungsfalls zur Klassifizierung menschlicher Gesichtsattribute). Wie in 5 gezeigt wird, kann eine kontinuierliche latente Dimension trainiert werden, um ein Azimut (d. h. eine Ausrichtung des Gesichts) darzustellen, und eine diskrete latente Dimension (oder eine binäre kategoriale Dimension) kann trainiert werden, um eine Brille darzustellen (beispielsweise eine 1, wenn die Person ein Brille trägt, und eine 0, wenn die Person keine Brille trägt). In dem in 5 veranschaulichen Beispiel kann eine kontinuierliche latente Dimension beispielsweise einen Hautton, eine Haarfarbe, eine Hintergrundfarbe, ein Azimut, eine Haarlänge, eine Hintergrundhelligkeit und dergleichen aufweisen. Eine diskrete latente Dimension kann beispielsweise ein Geschlecht, das Vorhandensein einer Brille, das Vorhandensein eines Lächelns, eine Augenbraueneigenschaft, eine Gewichtseigenschaft und dergleichen aufweisen. Das Vorhandensein eines semantischen latenten Raums ermöglicht es einem Endbenutzer, die kontradiktorische Bilderzeugung unter Verwendung von Konzepten auf hoher Ebene leicht zu steuern. Als ein Beispiel kann ein Endbenutzer leicht ein Bild (beispielsweise ein kontradiktorisches Bild) eines lächelnden menschlichen Gesichts ohne Brille erzeugen, das sich um 30 Grad nach links dreht.
Nach dem Trainieren des Bildgenerators (beispielsweise eines Variations-Autoencoders) und dem Entwirren eines semantischen latenten Raums trainiert der elektronische Prozessor 200 ein GAN (beispielsweise ein GAN-Modell) mit zufälliger Eingabe und einem aus dem semantischen latenten Raum (beispielsweise dem entwirrten semantischen latenten Raum) abgetasteten Vektor. Im Vergleich zu einem Variations-Autoencoder kann das GAN-Modell realistischer aussehende Bilder mit hoher Wiedergabetreue erzeugen (beispielsweise GAN-erzeugte Bilder). Im Unterschied zu herkömmlichen GAN-Modellen ermöglicht das durch den elektronischen Prozessor 200 trainierte GAN-Modell in einigen Ausführungsformen Benutzern, den latenten Raumvektor mit sowohl kontinuierlichen als auch diskreten Dimensionen zu verwenden, um die Semantik der GAN-erzeugten Bilder zu steuern. Dementsprechend unterstützt das Verfahren 400 (wie es durch den elektronischen Prozessor 200 ausgeführt wird) einen kontinuierlichen latenten Raum sowie einen kategorialen (oder diskreten) latenten Raum. Unter Bezugnahme auf 5 sehen die durch das GAN-Modell erzeugten Bilder (wobei in jeder Zeile eine semantische latente Raumdimension durchquert wird) ähnlich wie realistische Bilder aus, und die semantischen Eigenschaften (beispielsweise Hintergrundfarbe, Haarlänge) können gesteuert werden.
Unter erneuter Bezugnahme auf 4, führt der elektronische Prozessor 200 dann ein konzeptbasiertes semantisches kontradiktorisches Lernen unter Verwendung eines Satzes von semantischen latenten Räumen durch, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt werden (bei Block 415). Dementsprechend identifiziert der elektronische Prozessor 200 in einigen Ausführungsformen eine oder mehrere semantische latente Raumabtastungen, die verwendet werden können, um eines oder mehrere kontradiktorische Bilder zu erzeugen. Ein kontradiktorisches Bild kann beispielsweise ein neues gefälschtes Testbild aufweisen, das ein Zielmodell, wie beispielsweise einen Gesichtsattribut-Klassifikator, täuscht oder versagen lässt.
In einigen Ausführungsformen implementiert der elektronische Prozessor 200 einen kontradiktorischen Black-Box-Lernansatz (beispielsweise einen Ansatz, der auf verschiedenen Zielklassifizierern funktioniert, ohne die inneren Abläufe des Zielmodells kennen zu müssen). In einigen Ausführungsformen sucht der elektronische Prozessor 200 nach kleinen Störungen im Bildraum, um eine oder mehrere semantische latente Raumabtastungen zu identifizieren, die verwendet werden können, um ein kontradiktorisches Bild zu erzeugen. Alternativ oder zusätzlich kann der elektronische Prozessor 200 den semantischen latenten Raum mit sowohl kontinuierlichen als auch kategorialen Dimensionen durchsuchen.
6 veranschaulicht ein semantisches kontradiktorisches Lernen mit Blackbox-Abfragen gemäß einigen Ausführungsformen. Wie in 6 gezeigt wird, versucht der elektronische Prozessor 200 für ein bestimmtes Eingabebild, ein kontradiktorisches Bild zu erzeugen, bei dem der Ziel-Gesichtsattribut-Klassifizierer (beispielsweise ein Zielmodell) eine unterschiedliche Vorhersage ausgibt. Es wird erwartet, dass das kontradiktorische Bild dem Eingabebild ähnlich aussieht, aber semantische Unterschiede aufweist. Wie in 6 gezeigt wird, codiert der elektronische Prozessor 200 das Eingabebild in den semantischen latenten Raum mit dem Bildgenerator (in 6 als ein „VAE-Encoder“ veranschaulicht). Dann fügt der elektronische Prozessor 200 ein kleines zufälliges Rauschen zu dem latenten mittleren Vektor hinzu und verwendet die gestörten latenten Vektoren, um unter Verwendung von GAN neue Testbilder (beispielsweise kontradiktorische Bilder) zu erzeugen. Als nächstes kann der elektronische Prozessor 200 durch Eingaben eines kleinen Satzes von Testbildern in den Zielklassifizierer (beispielsweise das Zielmodell) den Gradienten (in 6 als „Gradientenschätzung“ veranschaulicht) der Zielklassifizierer-Verlustfunktion in Bezug auf die semantische latente Raumverteilung approximieren. Unter Verwendung eines kontradiktorischen Angriffsansatzes mit projiziertem Gradientenabstieg („PGD“) kann der elektronische Prozessor 200 effizient einen latenten Vektor mit kleiner semantischer Modifikation finden, der zu einem kontradiktorischen Beispiel oder Bild führt. In einigen Ausführungsformen setzt der elektronische Prozessor 200 diesen Prozess fort, bis zumindest ein kontradiktorisches Bild erzeugt wird, ein begrenztes Abfragebudget erfüllt ist, oder dergleichen.
Dementsprechend erzeugt, wie in dem in 4 bereitgestellten Beispiel gezeigt wird, der elektronische Prozessor ein kontradiktorisches Bild basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen (bei Block 420), und unter Verwendung des kontradiktorischen Bildes kann der elektronische Prozessor 200 dann ein Zielmodell testen (bei Block 425). Dementsprechend kann der elektronische Prozessor 200 nach dem Durchführen der konzeptbasierten semantischen Bilderzeugung (bei Block 410) und dem Durchführen des konzeptbasierten semantischen kontradiktorischen Lernens (bei Block 415) effizient eines oder mehrere realistische und semantische kontradiktorische Beispiele oder Bilder erzeugen. Der elektronische Prozessor 200 kann die kontradiktorischen Bilder verwenden, um ein Zielmodell (beispielsweise ein in der Modelldatenbank 225 enthaltenes Modell) zu testen, um beispielsweise Grenzfälle zu entdecken, Modellschwachstellen zu identifizieren oder dergleichen. Alternativ oder zusätzlich kann der elektronische Prozessor 200 eine Robustheit des Zielmodells semantisch analysieren und zusammenfassen, beispielsweise durch ein interaktives visuelles Analysetool (das beispielsweise von oder als Teil der kontradiktorischen Erzeugungsanwendung 230 bereitgestellt wird).
In einigen Ausführungsformen erzeugt der elektronische Prozessor 200 eine Leistungszusammenfassung des Zielmodells zum Anzeigen (bei Block 430). Die Leistungszusammenfassung kann auf dem Testen des Zielmodells basieren. Beispiel kann die Leistungszusammenfassung Informationen aufweisen, die sich auf einen entdeckten Grenzfall, eine Schwachstelle eines Modells, eine Robustheit des Zielmodells, oder dergleichen beziehen. In einigen Ausführungsformen erzeugt und sendet der elektronische Prozessor 200 die Leistungszusammenfassung an die Benutzervorrichtung 105 zum Anzeigen beispielsweise über ein visuelles Analysetool, auf das die Benutzervorrichtung 105 zugreifen kann. Dementsprechend kann ein Endbenutzer mit der Leistungszusammenfassung interagieren (beispielsweise durch ein visuelles Analysetool, auf das das Benutzergerät 105 zugreifen kann), um unterschiedliche Darstellungen interaktiv zu vergleichen (beispielsweise in dem latenten Variations-Autoencoder-Raum, dem Klassifizierer-Merkmalsraum, und dergleichen), um umsetzbare Erkenntnisse beispielsweise hinsichtlich einer Robustheit des Zielmodells zu gewinnen.
Dementsprechend stellen die hierin beschriebenen Ausführungsformen ein interpretierbares und steuerbares bereit Framework zum Erzeugen neuer realistischer und diverser Testbilder (beispielsweise kontradiktorische Beispiele oder Bilder) bereit, wenn ein trainiertes Kl-Modell (beispielsweise ein Zielmodell) beispielsweise ein Attribut nicht korrekt vorhersagen kann. Insbesondere lernen die hierin beschriebenen Ausführungsformen einen semantischen kontradiktorischen Generator mit einer Kombination aus einem Ansatz, der auf dem entwirrten Darstellungslernen (wie beispielsweise Variations-Autoencodern) basiert, und einem GAN. Die hierin beschriebenen Ausführungsformen verwenden einen kontradiktorischen Angriffsansatz (beispielsweise einen kontradiktorischen Black-Box-Angriffsansatz), um neue Testbilder (beispielsweise kontradiktorische Beispiele oder Bilder) zu erzeugen, wenn das Zielmodell nicht gut funktioniert. Die hierin beschriebenen Ausführungsformen fassen dann die kontradiktorischen Beispiele und Testergebnisse zusammen und analysieren sie (beispielsweise unter Verwendung eines visuellen Analysewerkzeugs).
Somit stellen die Ausführungsformen unter anderem Verfahren und Systeme zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung bereit, die effizient diverse Testdaten mit interpretierbarer und steuerbarer Semantik erzeugt. Verschiedene Merkmale und Vorteile bestimmter Ausführungsformen sind in den folgenden Ansprüchen dargelegt.

Claims

System zur Durchführung einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik, wobei das System umfasst: einen elektronischen Prozessor, der ausgelegt ist zum Abrufen eines Eingabebildes, Durchführen einer konzeptbasierten semantischen Bilderzeugung basierend auf dem Eingabebild, Durchführen eines konzeptbasierten semantischen kontradiktorischen Lernens unter Verwendung eines Satzes von semantischen latenten Räumen, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt wurden, Erzeugen eines kontradiktorischen Bildes basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen, und Testen eines Zielmodells unter Verwendung des kontradiktorischen Bildes.
System nach Anspruch 1, wobei der elektronische Prozessor dazu ausgelegt ist, eine konzeptbasierte semantische Bilderzeugung unter Verwendung von entwirrtem Darstellungslernen und generativem kontradiktorischen Lernen durchzuführen.
System nach Anspruch 1, wobei der elektronische Prozessor dazu ausgelegt ist, eine konzeptbasierte semantische Bilderzeugung durchzuführen durch Trainieren eines Bildgenerators mit entwirrter kontinuierlicher und diskreter Darstellung, und Trainieren eines generativen kontradiktorischen Netzwerks basierend auf einem semantischen latenten Raum, der durch den Bildgenerator entwirrt wird.
System nach Anspruch 3, wobei der Bildgenerator ein Variations-Autoencoder ist.
System nach Anspruch 3, wobei das Trainieren des Bildgenerators aufweist Trainieren eines Encoders, der ausgelegt ist zum Lernen eines entwirrten latenten Raums mit kontinuierlichen und diskreten Codierungen, und Ausrichten des entwirrten latenten Raums mit semantischen Merkmalen als semantischen latenten Raum.
System nach Anspruch 3, wobei das Trainieren des Bildgenerators auch ein Trainieren eines Decoders aufweist, der dazu ausgelegt ist, ein neues Bild aus dem semantischen latenten Raum zu erzeugen.
System nach Anspruch 3, wobei der elektronische Prozessor dazu ausgelegt ist, das generative kontradiktorische Netzwerk mit einer zufälligen Eingabe und einem aus dem semantischen latenten Raum abgetasteten Vektor zu trainieren.
System nach Anspruch 1, wobei das konzeptbasierte semantische kontradiktorische Lernen als ein kontradiktorischer Black-Box-Lernansatz durchgeführt wird.
System nach Anspruch 1, wobei der elektronische Prozessor dazu ausgelegt ist, das konzeptbasierte semantische kontradiktorische Lernen durchzuführen durch Analysieren des Satzes von semantischen latenten Räumen, und Identifizieren mindestens eines semantischen latenten Raums, wobei das kontradiktorische Bild basierend auf dem mindestens einen semantischen latenten Raum erzeugt wird.
System nach Anspruch 9, wobei das kontradiktorische Bild mindestens ein semantisches Merkmal aufweist, das sich von dem Eingabebild unterscheidet.
System nach Anspruch 1, wobei das kontradiktorische Bild das Zielmodell fehlschlagen lässt.
System nach Anspruch 11, wobei das Zielmodell ein Attributklassifizierer ist.
System nach Anspruch 1, wobei der elektronische Prozessor ferner dazu ausgelegt ist, eine Leistungszusammenfassung des Zielmodells zum Anzeigen zu erzeugen.
Verfahren zum Durchführen einer konzeptbasierten kontradiktorischen Erzeugung mit steuerbarer und diverser Semantik, wobei das Verfahren umfasst: Abrufen eines Eingabebildes; Durchführen, mit einem elektronischen Prozessor, einer konzeptbasierten semantischen Bilderzeugung basierend auf dem Eingabebild; Durchführen, mit dem elektronischen Prozessor, eines konzeptbasierten semantischen kontradiktorischen Lernens unter Verwendung eines Satzes von semantischen latenten Räumen, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt werden; Erzeugen, mit dem elektronischen Prozessor, eines kontradiktorischen Bildes basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen; Testen, mit dem elektronischen Prozessor, eines Zielmodells unter Verwendung des kontradiktorischen Bildes; und Erzeugen, mit dem elektronischen Prozessor, einer Leistungszusammenfassung des Zielmodells zum Anzeigen.
Verfahren nach Anspruch 14, wobei das Durchführen der konzeptbasierten semantischen Bilderzeugung ein Durchführen der konzeptbasierten semantischen Bilderzeugung unter Verwendung des entwirrten Darstellungslernens und des generativen kontradiktorischen Lernens aufweist.
Verfahren nach Anspruch 14, wobei das Durchführen der konzeptbasierten semantischen Bilderzeugung aufweist Trainieren eines Bildgenerators mit entwirrter kontinuierlicher und diskreter Darstellung, und Trainieren eines generativen kontradiktorischen Netzwerks basierend auf einem semantischen latenten Raum, der durch den Bildgenerator entwirrt wird.
Verfahren nach Anspruch 16, wobei das Trainieren des Bildgenerators aufweist Trainieren einen Encoders, der ausgelegt ist zum Lernen eines entwirrten latenten Raums mit kontinuierlichen und diskreten Codierungen, und Ausrichten des entwirrten latenten Raums mit semantischen Merkmalen als semantischen latenten Raum; und Trainieren eines Decoders, der dazu ausgelegt ist, ein neues Bild aus dem semantischen latenten Raum zu erzeugen.
Verfahren nach Anspruch 14, wobei das Durchführen des konzeptbasierten semantischen kontradiktorischen Lernens aufweist Analysieren des Satzes von semantischen latenten Räumen, und Identifizieren mindestens eines semantischen latenten Raums, wobei das kontradiktorische Bild basierend auf dem mindestens einen semantischen latenten Raum erzeugt wird.
Nichtflüchtiges, computerlesbares Medium, das Anweisungen speichert, die, wenn sie von einem elektronischen Prozessor ausgeführt werden, einen Satz von Funktionen ausführen, wobei der Satz von Funktionen umfasst: Abrufen eines Eingabebildes; Durchführen einer konzeptbasierten semantischen Bilderzeugung basierend auf dem Eingabebild; Durchführen eines konzeptbasierten semantischen kontradiktorischen Lernens unter Verwendung eines Satzes von semantischen latenten Räumen, die als Teil der Durchführung der konzeptbasierten semantischen Bilderzeugung erzeugt werden; Erzeugen eines kontradiktorischen Bildes basierend auf dem konzeptbasierten semantischen kontradiktorischen Lernen; Testen eines Zielmodells unter Verwendung des kontradiktorischen Bildes; und Erzeugen einer Leistungszusammenfassung des Zielmodells zum Anzeigen.
Computerlesbares Medium nach Anspruch 19, wobei das Durchführen der konzeptbasierten semantischen Bilderzeugung aufweist Trainieren eines Bildgenerators mit entwirrter kontinuierlicher und diskreter Darstellung, und Trainieren eines generativen kontradiktorischen Netzwerks basierend auf einem semantischen latenten Raum, der durch den Bildgenerator entwirrt wird.