DE112021004652T5

DE112021004652T5 - Hintertürerkennung gegnerischer Interpolation

Info

Publication number: DE112021004652T5
Application number: DE112021004652.7T
Authority: DE
Inventors: Heiko H. Ludwig; Ebube Chuba; Bryant Chen; Benjamin James Edwards; Taesung Lee; Ian Michael Molloy
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-13
Filing date: 2021-08-19
Publication date: 2023-06-29
Also published as: WO2022078062A1; GB2614996A; US20220114259A1; US12019747B2; GB202305408D0; JP2023544186A; CN116348879A

Abstract

Ein oder mehrere Computerprozessoren bestimmen einen Toleranzwert und einen Normwert, die einem nicht vertrauten Modell und einem gegnerischen Trainingsverfahren zugeordnet sind. Der eine oder die mehreren Computerprozessoren erzeugen eine Mehrzahl von interpolierten gegnerischen Bildern, die sich in einem Bereich zwischen einem Paar von Bildern befinden, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer unterschiedlichen Klasse stammt. Der eine oder die mehreren Computerprozessoren erkennen eine Hintertür, die dem nicht vertrauenswürdigen Modell zugeordnet ist, unter Benutzung der erzeugten Mehrzahl von interpolierten gegnerischen Bildern. Der eine oder die mehreren Computerprozessoren verfestigen das nicht vertrauenswürdige Modell, indem sie das nicht vertrauenswürdige Modell mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern trainieren.

Description

HINTERGRUND
Die vorliegende Erfindung bezieht sich allgemein auf das Gebiet des Maschinenlernens und genauer auf ein Erkennen neuronaler Netzwerke mit Hintertür.
Tiefes Lernen ist ein Zweig des Maschinenlernens auf Grundlage eines Satzes von Algorithmen, die übergeordnete Abstraktionen in Daten durch Verwenden von Modellarchitekturen mit komplexen Strukturen oder anderweitig modellieren, oftmals aus mehreren nichtlinearen Transformationen zusammengesetzt. Tiefes Lernen ist Teil einer breiteren Familie von Maschinenlernverfahren auf Grundlage eines Lernens von Darstellungen von Daten. Eine Beobachtung (z.B. ein Bild) kann in vielen Weisen dargestellt werden, wie beispielsweise ein Vektor von Intensitätswerten pro Pixel oder in einer abstrakteren Weise als ein Satz von Kanten, Regionen einer bestimmten Form usw. Manche Darstellungen machen es leichter, Aufgaben (z.B. Gesichtserkennung oder Gesichtsausdruckerkennung) aus Beispielen zu lernen. Tieflernalgorithmen verwenden oft eine Kaskade aus vielen Schichten von nichtlinearen Verarbeitungseinheiten zur Merkmalsextraktion und -transformation. Jede aufeinander folgende Schicht verwendet die Ausgabe aus der vorherigen Schicht als Eingabe. Die Algorithmen können überwacht oder nicht überwacht sein, und Anwendungen enthalten eine Strukturanalyse (nicht überwacht) und eine Klassifikation (überwacht).
Neuronale Netzwerke (NNs) sind Datenverarbeitungssysteme, die durch biologische neuronale Netzwerke inspiriert sind. NNs sind nicht einfach Algorithmen, sondern vielmehr ein Rahmenwerk für viele unterschiedliche Maschinenlernalgorithmen, um zusammenzuarbeiten und komplexe Dateneingaben zu verarbeiten. Solche System können lernen, Aufgaben durchzuführen, indem Beispiele betrachtet werden, allgemein ohne mit irgendwelchen aufgabenspezifischen Regeln programmiert zu werden. Zum Beispiel lernen bei einer Bilderkennung NNs, Bilder zu identifizieren, die Katzen enthalten, indem Beispielbilder analysiert werden, die korrekt als wahr oder falsch (z.B. Katze oder nicht Katze) gekennzeichnet sind, und die Ergebnisse verwendet werden, um Objekte (z.B. Katzen) in anderen Bildern zu identifizieren. In diesem Beispiel klassifizieren NNs ohne vorheriges Wissen über Katzen zum Beispiel, dass Katzen ein Fell, Schnurrhaare und spitze Ohren besitzen. Stattdessen erzeugen NNs automatisch identifizierende Charakteristika aus dem Lernmaterial. NNs beruhen auf einer Sammlung verbundener Einheiten oder Knoten, die künstliche Neuronen genannt werden, welche die Neuronen in einem biologischen Gehirn modellieren, bei denen jede Verbindung, wie die Synapsen in einem biologischen Gehirn, ein Signal von einem künstlichen Neuron zu einem weiteren übertragen können. Ein künstliches Neuron, das ein Signal empfängt, kann das Signal verarbeiten und dann das Signal zu zusätzlichen künstlichen Neuronen transferieren.
In allgemeinen NN-Umsetzungen ist das Signal an einer Verbindung zwischen künstlichen Neuronen eine reelle Zahl, und die Ausgabe jedes künstlichen Neurons wird durch irgendeine nichtlineare Funktion der Summe seiner Eingaben berechnet. Die Verbindungen zwischen künstlichen Neuronen werden Kanten genannt. Künstliche Neuronen und die Kanten besitzen typischerweise eine Gewichtung, die sich mit fortschreitendem Lernen anpasst. Die Gewichtung erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können einen Schwellenwert besitzen, sodass das Signal nur gesendet wird, wenn das angesammelte Signal diesen Schwellenwert überschreitet. Typischerweise werden künstliche Neuronen in Schichten angesammelt. Unterschiedliche Schichten können unterschiedliche Arten von Transformationen an ihren Eingaben durchführen. Signale laufen von der ersten Schicht (der Eingabeschicht) zu der letzten Schicht (der Ausgabeschicht), möglicherweise nach mehrmaligem Durchlaufen der Schichten.
Konvolutionelle neuronale Netzwerke (convolutional neural networks (CNNs)) sind eine Klasse von neuronalen Netzwerken, die am häufigsten auf ein Analysieren visueller Bildgebung angewendet werden. CNNs sind geregelte Versionen eines Mehrschichtperzeptrons (z.B. vollständig verbundenes Netzwerk), bei dem jedes Neuron in einer Schicht mit allen Neuronen in der nächsten Schicht verbunden ist. CNNs nutzen vorteilhaft das hierarchische Muster in Daten und fügen komplexerer Muster unter Verwendung von kleineren und einfacheren Mustern zusammen. CNNs brechen Bilder in kleine Ausschnitte herunter (z.B. einen Ausschnitt von 5x5 Pixeln) und bewegen sich dann mit einer vorgesehenen Schrittweite über das Bild. Daher befinden sich CNNs auf der Skala einer Verbundenheit und Komplexität an dem unteren Extremwert, da CNNs verglichen mit anderen Bildklassifikationsalgorithmen relativ wenig Vorverarbeitung verwenden, was es den Netzwerken erlaubt, die Filter zu lernen, die in herkömmlichen Algorithmen von Hand gestaltet waren.
KURZDARSTELLUNG
Ausführungsformen der vorliegenden Erfindung offenbaren ein computerumgesetztes Verfahren, ein Computerprogrammprodukt und ein System. Das computerumgesetzte Verfahren enthält einen oder mehrere Computerprozessoren, die einen Toleranzwert und einen einem nicht vertrauten Modell zugeordneten Normwert und ein gegnerisches Trainingsverfahren bestimmen. Der eine oder die mehreren Computerprozessoren erzeugen eine Mehrzahl von interpolierten gegnerischen Bildern, die sich in einem Bereich zwischen einem Paar von Bildern befinden, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer unterschiedlichen Klasse stammt. Der eine oder die mehreren Computerprozessoren erkennen eine Hintertür, die dem nicht vertrauten Modell zugeordnet ist, unter Benutzung der erzeugten Mehrzahl von interpolierten gegnerischen Bildern. Der eine oder die mehreren Computerprozessoren verfestigen das nicht vertraute Modell, indem sie das nicht vertraute Modell mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern trainieren.
Figurenliste

Figur (FIG.) 1 ist ein Funktionsblockschaubild, das eine Rechenumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
2 ist ein Ablaufplan, der Betriebsschritte eines Programms auf einem Servercomputer innerhalb der Rechenumgebung von 1 zum Erkennen und Verfestigen neuronaler Netzwerke mit Hintertüren unter Benutzung erzeugter interpolierter gegnerischer Bilder gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
3 ist eine Veranschaulichung eines Programms, das eine Mehrzahl von interpolierten Bildern in einem Bereich zwischen Katzen- und Hundeklassen gemäß einer Ausführungsform der vorliegenden Erfindung erzeugt; und
4 ist ein Blockschaubild von Komponenten des Servercomputers gemäß einer Ausführungsform der vorliegenden Erfindung.

DETAILLIERTE BESCHREIBUNG
Wenn Trainingsdaten böswillig verändert werden, können zugeordnete Vorhersagen von resultierenden trainierten Modellen (z.B. eines tiefen konvolutionellen neuronalen Netzwerks (CNN)) in Anwesenheit eines gestalteten Auslösemusters manipuliert werden, was als Hintertürangriffe bekannt ist. Tiefe CNNs erzielen Leistungen nach dem neusten Stand der Technik in Bereichen wie Computervision, Sprachverstehen, Spielen usw.; es besteht jedoch eine böswillig eingebrachte Verletzlichkeit in der Trainingsphase, was als Hintertürangriffe bezeichnet wird. Hintertürangriffe können Maschinenlernsysteme beschädigen, insbesondere Systeme, die an einer Bildklassifikation, Gesichtserkennung und autonomen Fahrzeugen beteiligt sind, was an die Vertrauenswürdigkeit der Modelle und Anwendungen kritische Herausforderungen stellt. Gegner oder schlechte Akteure können neuronale Netzwerke mit Hintertürbeispielen durch die Hintertür beeinflussen, welche die Fähigkeit besitzen, vom Angreifer gewählte Eingaben in Zielkennzeichnungen zu klassifizieren, während für normale Eingaben noch korrekte Vorhersagen beibehalten werden. Das anormale Verhalten wird durch eine Hintertür und durch irgendwelche „Schlüssel“-Eingaben aktiviert, die durch neuronale Netzwerke in der Trainingsphase gelernt werden. Gegnerische Angriffe fügen den Testdaten eine menschlich wahrnehmbare Störung hinzu, sodass Dateneingaben in der Testphase leicht fehlklassifiziert werden. Gegner gewinnen eine enorme Kontrolle Maschinenlernmodelle durch Einführen sorgfältig hergestellter Daten in den Trainingssatz, wie ein Hintertürangriff. Dies ist besonders relevant für Szenarios von unsicherer oder crowdgesourcter Datenerfassung, häufiges Nachtrainieren, Modellanpassung (z.B. aus dem Modellmarkt) und Transferlernen
Ausführungsformen der vorliegenden Erfindung bestimmen, ob ein Modell mit böswilligen Schlüsseln oder Auslösern durch eine Hintertür angegriffen wurde. Ausführungsformen der vorliegenden Erfindung erzeugen eine Mehrzahl von interpolierten gegnerischen Störungen, um zu bestimmen, ob in dem Modell eine Hintertür vorhanden ist. Ausführungsformen der vorliegenden Erfindung verfestigen ein Modell durch Trainieren/Nachtrainieren des Modells unter Benutzung der erzeugten interpolierten gegnerischen Störungen und zugeordneter gegnerischer Bilder. Ausführungsformen der vorliegenden Erfindung benutzen Human-in-the-Loop-Trainingsverfahren, um eine Modelleffizienz aufrechtzuerhalten und ein Erkennen möglicher Hintertüren und zugeordneter Bilder zu verbessern. Eine Umsetzung von Ausführungsformen der Erfindung kann eine Vielfalt von Formen annehmen, und beispielhafte Umsetzungsdetails werden nachfolgend unter Bezugnahme auf die Figuren erörtert.
Die vorliegende Erfindung wird nun unter Bezugnahme auf die Figuren detailliert beschrieben.
1 ist ein funktionelles Blockschaubild, das eine allgemein mit 100 bezeichnete Rechenumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht. Der Begriff „Rechen-“ wie er in dieser Patentschrift verwendet wird, beschreibt ein Computersystem, das mehrere physische, abgegrenzte Einheiten enthält, die als ein einzelnes Computersystem zusammenarbeiten. 1 stellt nur eine Veranschaulichung einer einzigen Umsetzung bereit und impliziert keine Einschränkungen im Hinblick auf die Umgebungen, in denen unterschiedliche Ausführungsformen umgesetzt werden können. Viele Modifikationen können durch den Fachmann an der dargestellten Umgebung vorgenommen werden, ohne vom Umfang der Erfindung, wie sie in den Ansprüchen vorgetragen ist, abzuweichen.
Die Rechenumgebung 100 enthält einen Servercomputer 120, der über ein Netzwerk 102 verbunden ist. Das Netzwerk 102 kann zum Beispiel ein Telekommunikationsnetz, ein lokales Netzwerk (local area network (LAN)), ein Weitverkehrsnetzwerk (wide area network (WAN)), wie beispielsweise das Internet, oder eine Kombination der drei sein und kann kabelgebundene, kabellose und/oder Lichtwellenleiterverbindungen enthalten. Das Netzwerk 102 kann ein oder mehrere kabelgebundene und/oder kabellose Netzwerke enthalten, die fähig sind, Daten-, Sprach- und/oder Videosignale zu empfangen und zu übertragen, einschließlich Multimediasignale, die Sprach-, Daten- und Videoinformationen enthalten. Im Allgemeinen kann das Netzwerk 102 jede Kombination von Verbindungen und Protokollen sein, die eine Datenübertragung zwischen dem Servercomputer 120 und einem Modell 110 und anderen Datenverarbeitungseinheiten (nicht gezeigt) innerhalb der Rechenumgebung 100 unterstützen werden. In vielfältigen Ausführungsformen arbeitet das Netzwerk 102 lokal über kabelgebundene, kabellose oder optische Verbindungen und kann jede Kombination von Verbindungen und Protokollen sein (z.B. ein örtliches persönliches Netzwerk (personal area network (PAN), Nahfelddatenübertragung (near field communication (NFC)), Laser, Infrarot, Ultraschall usw.).
Das Modell 110 steht für ein Modell, das tiefe Lerntechniken benutzt, um zu trainieren, Gewichtungen zu berechnen, Eingaben aufzunehmen und eine Mehrzahl von Lösungsvektoren auszugeben. In einer Ausführungsform weist das Modell 110 eine beliebige Kombination von Tieflernmodell, -technik, und -algorithmus auf, wie beispielsweise neuronale Netzwerkalgorithmen und -modelle (z.B. langes Kurzzeitgedächtnis (long shortterm memory (LSTM), Deep Stacking Network (DSN), Deep Belief Network (DBN), konvolutionelle neuronale Netzwerke (CNN), hierarchische tiefe Verbundnetzwerke usw.), die mit überwachten oder nicht überwachten Verfahren trainiert werden können. In der dargestellten Ausführungsform ist das Modell 110 ein CNN, das unter Benutzung von überwachten gegnerischen Trainingsverfahren trainiert wird. In dieser Ausführungsform sind gegnerische Trainingsverfahren der Prozess eines Trainierens eines Modells, um sowohl unmodifizierte Beispiele als auch gegnerische Beispiele korrekt zu klassifizieren. Ein gegnerisches Training verbessert die Robustheit gegen gegnerische Proben (d.h. Bilder), während eine Verallgemeinerungsleistung für ein ursprüngliches Beispiel aufrechterhalten wird. In einer Ausführungsform wurde das Modell 110 durch eine Hintertür kompromittiert, wobei das Modell beliebige Eingaben konsumiert, die einer Hintertür (unterschiedlicher wahrer Kennzeichnungen) zugeordnet sind, die anschließend mit einer falschen Zielklasse fehlklassifiziert werden. In einer Ausführungsform ist das Modell 110 ein nicht vertrauenswürdiges Modell, wobei das nicht vertrauenswürdige Modell aus einer unsicheren oder nicht vertrauenswürdigen Quelle abgerufen wird, sodass jedes Modell, das aus der Quelle abgerufen wird, nicht unmittelbar verifiziert werden kann.
Der Servercomputer 120 kann eine eigenständige Datenverarbeitungseinheit, ein Verwaltungsserver, ein Webserver, eine mobile Datenverarbeitungseinheit oder eine beliebige andere elektronische Einheit oder ein solches Datenverarbeitungssystem sein, das fähig ist, Daten zu empfangen, zu senden und zu verarbeiten. In anderen Ausführungsformen kann der Servercomputer 120 für ein Server-Datenverarbeitungssystem stehen, das mehrere Computer als ein Serversystem benutzt, wie beispielsweise in einer Cloud-Computing-Umgebung. In einer weiteren Ausführungsform kann der Servercomputer 120 ein Laptop-Computer, ein Tablet-Computer, ein Netbook-Computer, ein Personal Computer (PC), ein Desktop-Computer, ein persönlicher digitaler Assistent (PDA), ein Smartphone oder eine beliebige programmierbare elektronische Einheit sein, die fähig ist, mit anderen Datenübertragungseinheiten (nicht gezeigt) innerhalb der Rechenumgebung 100 Daten auszutauschen. In einer weiteren Ausführungsform steht der Servercomputer 120 für ein Datenverarbeitungssystem, das Cluster-Computer und Komponenten (z.B. Datenbankservercomputer, Anwendungsservercomputer usw.) benutzt, die als einzelner Bestand nahtloser Ressourcen agieren, wenn auf sie innerhalb der Rechenumgebung 100 zugegriffen wird. In der dargestellten Ausführungsform enthält der Servercomputer 120 eine Datenbank 122 und ein Programm 150. In anderen Ausführungsformen kann der Servercomputer 120 andere Anwendungen, Datenbanken, Programme usw. enthalten, die in der Rechenumgebung 100 nicht dargestellt wurden. Der Servercomputer 120 kann interne und externe Hardwarekomponenten, wie dargestellt und in Hinblick auf 4 detaillierter beschrieben, enthalten.
Die Datenbank 122 ist eine Ablage für durch das Programm 150 verwendete Daten. In der dargestellten Ausführungsform befindet sich die Datenbank 122 auf dem Servercomputer 120. In einer weiteren Ausführungsform kann sich die Datenbank 122 anderswo innerhalb der Rechenumgebung 100 befinden, vorausgesetzt das Programm 150 hat Zugriff auf die Datenbank 122. Bei einer Datenbank handelt es sich um eine organisierte Ansammlung von Daten. Die Datenbank 122 kann mit einem beliebigen Typ von Speicherungseinheit umgesetzt werden, die fähig ist, Daten und Konfigurationsdateien zu speichern, auf die durch das Programm 150 zugegriffen werden kann und die durch dieses benutzt werden können, wie beispielsweise einem Datenbankserver, einem Festplattenlaufwerk oder einem Flash-Speicher. In einer Ausführungsform speichert die Datenbank 122 durch das Programm 150 verwendete Daten, wie beispielsweise interpolierte gegnerische bisherige Bilder, bisherige Hintertüren, bisherige saubere Modelle, bisherige Hintertürmodelle und zugeordnete Datensätze (z.B. Testsätze, Validierungssätze und Trainingssätze).
Das Programm 150 ist ein Programm zum Erkennen und Verfestigen von neuronalen Netzwerken mit Hintertüren unter Benutzung erzeugter interpolierter gegnerischer Bilder. In vielfältigen Ausführungsformen kann das Programm 150 die folgenden Schritte umsetzen: Bestimmen eines Toleranzwerts und eines Normwerts, der einem nicht vertrauenswürdigen Modell und einem gegnerischen Trainingsverfahren zugeordnet ist; Erzeugen einer Mehrzahl interpolierter gegnerischer Bilder, die in einem Bereich zwischen einem Paar von Bildern liegen, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer anderen Klasse stammt; Erkennen einer Hintertür, die dem nicht vertrauenswürdigen Modell zugeordnet ist, unter Benutzung der erzeugten Mehrzahl interpolierter gegnerischer Bilder; und Verfestigen des nicht vertrauenswürdigen Modells durch Trainieren des nicht vertrauenswürdigen Modells mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern. In der dargestellten Umgebung ist das Programm 150 ein eigenständiges Softwareprogramm. In einer weiteren Ausführungsform kann die Funktionalität des Programms 150 oder beliebiger Kombinationsprogramme davon in ein einzelnes Softwareprogramm integriert werden. In manchen Ausführungsformen kann sich das Programm 150 auf getrennten Datenverarbeitungseinheiten (nicht dargestellt) befinden, kann jedoch noch über das Netzwerk 102 Daten austauschen. In vielfältigen Ausführungsformen befinden sich Client-Versionen des Programms 150 auf einer beliebigen anderen Datenverarbeitungseinheit (nicht dargestellt) innerhalb der Rechenumgebung 100. Das Programm 150 ist in Hinblick auf 2 detaillierter dargestellt und beschrieben.
Die vorliegende Erfindung kann vielfältige zugängliche Datenquellen enthalten, wie beispielsweise die Datenbank 122, die persönliche Speicherungseinheiten, Daten, Inhalt oder Informationen enthalten können, die der Benutzer nicht verarbeitet haben möchte. Verarbeitung bezieht sich auf einen beliebigen automatisierten oder nicht automatisierten Vorgang oder einen solchen Satz von Vorgängen, wie beispielsweise Sammlung, Aufzeichnen, Organisation, Strukturieren, Speicherung, Anpassung, Veränderung, Abruf, Konsultation, Verwendung, Offenbarung durch Übertragung, Verbreitung oder anderweitigem Zugänglichmachen, Kombination, Einschränkung, Löschung oder Zerstörung, die an persönlichen Daten durchgeführt werden. Das Programm 150 stellt eine informierte Einwilligung mit Beachtung der Sammlung persönlicher Daten bereit, die es dem Benutzer erlaubt, der Verarbeitung persönlicher Daten zuzustimmen oder diese abzulehnen. Die Einwilligung kann mehrere Formen annehmen. Die Zustimmungseinwilligung kann es dem Benutzer auferlegen, eine zustimmende Aktion vorzunehmen, bevor die persönlichen Daten verarbeitet werden. Alternativ kann es die Ablehnungseinwilligung dem Benutzer auferlegen, eine zustimmende Aktion vorzunehmen, um die Verarbeitung persönlicher Daten zu verhindern, bevor die Daten verarbeitet werden. Das Programm 150 ermöglicht die autorisierte und sichere Verarbeitung von Benutzerinformationen, wie beispielsweise Verfolgungsinformationen, sowie persönlicher Daten, wie beispielsweise persönlich identifizierender Informationen oder sensibler persönlicher Informationen. Das Programm 150 stellt Informationen hinsichtlich der persönlichen Daten und der Art (z.B. Typ, Umfang, Zweck, Dauer usw.) der Verarbeitung bereit. Das Programm 150 stellt dem Benutzer Kopien gespeicherter persönlicher Daten bereit. Das Programm 150 erlaubt die Korrektur oder Vervollständigung inkorrekter oder unvollständiger persönlicher Daten. Das Programm 150 erlaubt die unmittelbare Löschung persönlicher Daten.
2 stellt einen Ablaufplan 200 dar, der Betriebsschritte des Programms 150 zum Erkennen und Verfestigen neuronaler Netzwerke mit Hintertüren unter Benutzung erzeugter interpolierter gegnerischer Bilder gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
Das Programm 150 überwacht das nicht vertrauenswürdige Modell (Schritt 202). In einer Ausführungsform beginnt das Programm 150, wenn ein Benutzer ein nicht vertrauenswürdiges Modell in das Programm 150 eingibt. In einer weiteren Ausführungsform überwacht das Programm 150 (z.B. ruft es ab oder empfängt) ein oder mehrere nicht vertrauenswürdige Modelle auf Anzeichen einer Hintertür. In einer Ausführungsform empfängt das Programm eine nicht vertrauenswürdige Modellarchitektur und zugeordnete vortrainierte Gewichtungen. In einer weiteren Ausführungsform aktiviert sich das Programm 150 jedes Mal, wenn das eine oder die mehreren nicht vertrauenswürdigen Modelle trainiert oder nachtrainiert werden. In einer weiteren Ausführungsform beginnt das Programm 150 als Reaktion auf eine oder mehrere Änderungen in Trainingsproben oder Datensätzen, wie beispielsweise eine Hinzufügung, Modifikation oder Löschung einer Trainingsprobe. In einem Beispielszenario modifizieren Angreifer den Trainingssatz aber weder den Testsatz noch die Modelldetails und zugeordneten Trainingsalgorithmen. In einer Ausführungsform empfängt das Programm 150 einen Satz sauberer Trainings- und Validierungsdaten mit jeweiligen Kennzeichnungen, die dem nicht vertrauenswürdigen Modell zugeordnet sind. Zum Beispiel empfängt das Programm 150 einen Satz von Trainings- und Validierungsbildern, wobei jedes Bild gekennzeichnet ist. In einer weiteren Ausführungsform empfängt das Programm 150 ein gegnerisches Trainingsverfahren und zugeordnete Parameter.
Das Programm 150 bestimmt einen Toleranz- und Normwert, die dem nicht vertrauenswürdigen Modell zugeordnet sind (Schritt 204). Als Reaktion darauf, dass das Programm 150 einen sauberen Testsatz und Validierungssatz empfängt, die dem nicht vertrauenswürdigen Modell zugeordnet sind, empfängt oder bestimmt das Programm 150 einen Toleranzwert unter Benutzung der zugeordneten Validierungsdaten. In dieser Ausführungsform ist Toleranz ein Maß der Modellrobustheit gegen gegnerische Angriffe wachsender Stärke. In einer Ausführungsform bestimmt das Programm 150 die Toleranz durch Benutzen von Validierungsdaten, um das Modell zu testen und eine oder mehrere Fehlerraten zu berechnen. In einer weiteren Ausführungsform empfängt oder bestimmt das Programm 150 einen Normwert, der den Verlust eines Modells an einer bestimmten Eingabe maximiert, während die Größe einer Störung kleiner als ein spezifiziertes Epsilon beibehalten wird. In dieser Ausführungsform wird der Normwert als L²- oder L∞-Norm der Störung ausgedrückt. In einer Ausführungsform wählt das Programm 150 einen Satz von Daten aus, um eine Robustheit des Modells aus dem Validierungssatz zu testen, wobei ein robustes Modell das Lernen nützlicher aber nicht robuster Merkmale verhindert.
Das Programm 150 erzeugt eine Mehrzahl interpolierter gegnerischer Bilder unter Benutzung der bestimmten Toleranz- und Normwerte (Schritt 206). In einer Ausführungsform erzeugt das Programm 150 eine Mehrzahl gegnerischer Bilder mit hohem Epsilon, die jeweils eine hinzugefügte Störung besitzen, die eine zugeordnete Klassenkennzeichnung ändern können. In einer Ausführungsform benutzt das Programm 150 den bestimmten Normwert und den bestimmten Toleranzwert, um die Störung und die zugeordneten gegnerischen Bilder anzupassen. In einer weiteren Ausführungsform erzeugt das Programm 150 ein gegnerisches Bild für jede Kennzeichnung und jedes Datenpaar des Validierungsdatensatzes und hängt an jedes erzeugte Bild eine korrekte Kennzeichnung an. In einer weiteren Ausführungsform berechnet das Programm 150 die Störungen durch Benutzen einer linearisierten Verlustfunktion mit einem Datenpunkt an jeder Iteration. Zum Beispiel benutzt das Programm 150 ein iteratives Verfahren am wenigsten wahrscheinlicher Klassen, ein iteratives gradientengestütztes Verfahren, das die am wenigsten wahrscheinliche Vorhersage als eine gewünschte Klasse auswählt. Hier erzeugt das Programm 150 eine Mehrzahl interpolierter Bilder, die in einem Bereich zwischen einem Paar von Bilder liegen, jeweils von unterschiedlichen Klassen. In einer Ausführungsform erzeugt das Programm 150 bei zwei gegebenen Bildern x, x' Bilder, die zwischen den jeweiligen Klassen von x und x' interpoliert sind. In einer Ausführungsform führt das Programm 150 für jede in dem Testsatz und/oder Validierungssatz enthaltene Klasse eine oder mehrere Störungen in Richtung einer spezifizierten Klasse in einen Teilsatz von interpolierten gegnerischen Bildern durch. In den vorstehenden Ausführungsformen interpoliert das Programm 150 linear zwischen einer ursprünglichen Bildklasse und einer weiteren Bildklasse in einer weiteren Klasse zu einer glatten Interpolation zwischen den jeweiligen Klassen. In einer weiteren Ausführungsform verursachen die Störungen für ein robustes Modell wahrnehmbare Änderungen (z.B. sichtbar für ein menschliches Auge) an dem ursprünglichen Bild. In einer Ausführungsform stört das Programm 150 nur einen Abschnitt oder eine Region eines Bildes. In der vorstehenden Ausführungsform werden die erzeugten interpolierten Bilder als ein Text für die Robustheit des Modells an verschiedenen Punkten in dem Training dienen, wie nachstehend erörtert.
Das Programm 150 erkennt eine Hintertür unter Benutzung der erzeugten Mehrzahl von interpolierten gegnerischen Bildern (Schritt 208). In einer Ausführungsform benutzt das Programm 150 die erzeugte Mehrzahl von interpolierten gegnerischen Bildern, um eine vorhandene Hintertür in den Bildern zu erkennen, indem eine Fehlklassifizierung oder eine Änderung der Klassifizierung als Reaktion auf die Mehrzahl von interpolierten gegnerischen Bildern identifiziert wird. In einer Ausführungsform erkennt das Programm 150 die Hintertür durch Analysieren eines oder mehrerer Gradienten, die einem eingegebenen interpolierten gegnerischen Bild zugeordnet sind, da sich Statistiken von Bildern nahe Hintertüren von Statistiken sauberer Bilder unterscheiden. In einer Ausführungsform benutzt das Programm 150 Mittelwerte und eine Standardabweichung, um zu bestimmen, ob ein Bild eine Hintertür aufweist. Wenn in einer Ausführungsform das Programm 150 die vorstehenden Schritte fortsetzt, bis Gradienten gezeigt haben, dass eine Hintertür vorhanden ist, werden die gegnerischen Bilder nicht entzifferbar oder wahrnehmungstechnisch ähnlich Daten in der Zielklasse. Für ein nicht robustes Modell erscheinen gegnerische Störungen als zufälliges Rauschen, während robuste Modelle in der Lage sind, die Hintertür offenzulegen, während jede Fehlklassifizierung aufgrund einer Hintertür verhindert wird.
In einer Ausführungsform benutzt das Programm 150 Human-in-the-Loop-Trainingsverfahren (d.h. erlaubt es dem Benutzer, das Ergebnis eines Ereignisses oder Prozesses zu ändern), um den Trainingsfortschritt des Modells zu überwachen. Zum Beispiel überwacht das Programm 150 im Lauf der Zeit einen oder mehrere Gradienten, die einem gegnerischen Neutraining zugeordnet sind. In einem weiteren Beispiel zeigt das Programm 150 einen oder mehrere Gradienten periodisch als eine Visualisierung für einen oder mehrere Benutzer an. In einer weiteren Ausführungsform erzeugt das Programm 150 eine oder mehrere Visualisierungen, die einem Benutzer dargestellt werden, um beim Erkennen von Bildinkonsistenzen zu unterstützen. In einer Ausführungsform richtet das Programm 150 eine Mehrzahl von Prüfpunkten an unterschiedlichen Punkten in dem Modelltraining ein. In dieser Ausführungsform speichert das Programm 150 den aktuellen Zustand des Modells zu diesem Zeitpunkt. In einer weiteren Ausführungsform benutzt das Programm 150 eine gegnerische Interpolation, wie vorstehend beschrieben, als ein Human-in-the-Loop-Trainingsverfahren, das eine menschliche Intervention erlaubt, wenn ein Benutzer eine gegnerische Änderung oder ein erzeugtes Bild als eine Hintertür betrachtet. In dieser Ausführungsform bestimmt der Benutzer, ob das Modell neutrainiert werden sollte. In einer weiteren Ausführungsform überwacht und unterbricht das Programm 150 das Modell an einem spezifischen Trainingsschritt unter Benutzung menschlicher Verifikation von erzeugten und angewendeten gegnerischen Störungen. In vielfältigen Ausführungsformen stellt das Programm 150 einem Benutzer eine oder mehrere Klassifizierungen bereit, die sich aufgrund einer Hintertür verschoben haben können. In vielfältigen Ausführungsformen benutzt das Programm 150 die Prüfpunkte, um vorherige Trainings wiederaufzunehmen und legt die Trainings und zugeordneten Statistiken einem menschlichen Überwacher vor. Das Human-in-the-Loop-Training erlaubt eine menschliche Intervention in dem Trainingsprozess, um die Modellrobustheit aufrechtzuerhalten. Wenn in einer Ausführungsform die erzeugten gegnerischen Bilder keine interpretierbaren (d.h. durch einen Menschen erkennbare) Störungen an der Eingabe aufdecken, benutzt das Programm 150 die erzeugten Bilder, um ein gegnerisches Training durchzuführen und die Schritte zu wiederholen, bis Störungen interpretierbar sind. In einem Beispiel ist eine nicht interpretierbare Störung Gaußsches Rauschen oder ein anderes Rauschmuster, das kein sichtbares Muster bildet.
Das Programm 150 entfernt die erkannte Hintertür durch Neutrainieren des nicht vertrauenswürdigen Modells mit den erzeugten gegnerischen Bildern (Schritt 210). In einer Ausführungsform verfestigt das Programm 150 das nicht vertrauenswürdige Modell durch Trainieren des nicht vertrauenswürdigen Modells unter Benutzung der erzeugten gegnerischen interpolierten Bilder für ein robustes Modelltraining. In einer weiteren Ausführungsform filtert das Programm 150 nachfolgende Eingaben und entfernt Bilder, welche die erkannte Hintertür enthalten. In einer weiteren Ausführungsform verarbeitet das Programm 150 alle Eingaben und entfernt Regionen in einer Eingabe, falls eine Hintertür erkannt wird. In vielfältigen Ausführungsformen kennzeichnet das Programm 150 Daten mit einer Hintertür mit einer zugeordneten Quellenklasse neu und fährt fort, das Modell unter Benutzung der neu gekennzeichneten Daten mit einer Hintertür zu trainieren. In einer Ausführungsform setzt das Programm 150 das verfestigte Modell für nachfolgende Folgerungen und eine Bewertung ein.
3 stellt eine Veranschaulichung 300 gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung dar. Die Veranschaulichung 300 enthält eine Mehrzahl einer Mehrzahl von interpolierten Bildern (d.h. ein interpoliertes Bild 304A, 304B und 304C), die in einem Bereich zwischen Klassen von Katzen (d.h. ein ursprüngliches Bild 302) und Hunden (d.h. ein interpoliertes Bild 304D) liegen. Die Veranschaulichung 300 stellt das Programm 150 dar, das eine Mehrzahl von interpolierten Bildern erzeugt, die in einem Bereich zwischen Klassen von Katzen und Hunden liegen, wie in Schritt 206 beschrieben. Hier fügt das Programm 150 eine oder mehrere gegnerische Störungen dem ursprünglichen Bild 302 und der zugeordneten Klasse (d.h. Katze) hinzu und interpoliert in Richtung einer Zielklasse (d.h. Hund). Wie in dem interpolierten Bild 302A, 304B, 304C und 304D veranschaulicht, fährt das Programm 150 fort, gegnerische Störungen hinzuzufügen, bis ein interpoliertes Bild als die Zielklasse klassifiziert wird, wie in der Klassifizierung des interpolierten Bildes 304D als ein Hund gezeigt.
4 stellt ein Blockschaubild 400 dar, das Komponenten des Servercomputers 120 gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung veranschaulicht. Es sollte verstanden werden, dass 4 nur eine Veranschaulichung einer einzigen Umsetzung bereitstellt und keine Einschränkungen im Hinblick auf die Umgebungen impliziert, in denen die unterschiedlichen Ausführungsformen umgesetzt werden können. Viele Modifikationen können an der dargestellten Umgebung vorgenommen werden.
Der Servercomputer 120 enthält jeweils eine Datenübertragungsstruktur 404, welche die Datenübertragung zwischen einem Cache 403, einem Arbeitsspeicher 402, einer permanenten Speicherung 405, einer Datenübertragungseinheit 407 und einer oder mehreren Eingabe/Ausgabe(E/A)-Schnittstellen 406 bereitstellt. Die Datenübertragungsstruktur 404 kann mit jeder Architektur umgesetzt werden, die zum Weiterleiten von Daten und/oder Steuerinformationen zwischen Prozessoren (wie beispielsweise Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemarbeitsspeicher, Peripherieeinheiten und beliebiger anderer Hardwarekomponenten innerhalb eines Systems gestaltet ist. Zum Beispiel kann die Datenübertragungsstruktur 404 mit einem oder mehreren Bussen oder einem Kreuzschienenschalter umgesetzt werden.
Bei dem Arbeitsspeicher 402 und der permanenten Speicherung 405 handelt es sich um computerlesbare Speicherungsmedien. In dieser Ausführungsform enthält der Arbeitsspeicher 402 einen Speicher mit wahlfreiem Zugriff (random access memory (RAM)). Im Allgemeinen kann der Arbeitsspeicher 402 beliebige geeignete flüchtige oder nichtflüchtige computerlesbare Speicherungsmedien enthalten. Der Cache 403 ist ein schneller Speicher, der die Leistungsfähigkeit des einen oder der mehreren Computerprozessoren 401 durch Speichern von Daten, auf die kürzlich zugegriffen wurde, und von Daten nahe Daten, auf die kürzlich zugegriffen wurde, aus dem Arbeitsspeicher 402 steigert.
Das Programm 150 kann in der permanenten Speicherung 405 und in dem Arbeitsspeicher 402 zur Ausführung durch einen oder mehrere der jeweiligen Computerprozessoren 401 über den Cache 403 gespeichert werden. In einer Ausführungsform enthält die permanente Speicherung 405 ein magnetisches Festplattenlaufwerk. Alternativ oder zusätzlich zu einem magnetischen Festplattenlaufwerk kann die permanente Speicherung 405 eine Solid-State-Festplatte, eine HalbleiterSpeicherungseinheit, einen Nur-Lese-Speicher (read-only memory (ROM)), einen löschbaren programmierbaren Nur-Lese-Speicher (erasable programmable read-only memory (EPROM)), einen Flash-Speicher oder beliebige andere computerlesbare Speicherungsmedien enthalten, die fähig sind, Programmanweisungen oder digitale Informationen zu speichern.
Bei den durch die permanente Speicherung 405 verwendeten Medien kann es sich auch um Wechselmedien handeln. Zum Beispiel kann für die permanente Speicherung 405 ein Wechselfestplattenlaufwerk verwendet werden. Andere Beispiele enthalten optische und magnetische Platten, USB-Sticks und Smart Cards, die in ein Laufwerk zum Transfer auf ein anderes computerlesbares Speicherungsmedium eingeführt werden, das ebenso Teil der permanenten Speicherung 405 ist. Software und Daten 412 können in der permanenten Speicherung 405 zum Zugriff oder zur Ausführung durch einen oder mehrere der jeweiligen Prozessoren 401 über den Cache 403 gespeichert werden.
Eine Datenübertragungseinheit 407 stellt in diesen Beispielen den Datenaustausch mit anderen Datenverarbeitungssystemen oder -einheiten bereit. In diesen Beispielen enthält die Datenübertragungseinheit 407 eine oder mehrere Netzwerkschnittstellenkarten. Die Datenübertragungseinheit 407 kann die Datenübertragung durch die Verwendung von entweder physischen oder drahtlosen Datenübertragungsverbindungen oder beidem bereitstellen. Das Programm 150 kann durch die Datenübertragungseinheit 407 auf die permanenten Speicherung 405 heruntergeladen werden.
Die eine oder mehreren E/A-Schnittstellen 406 erlauben eine Eingabe und Ausgabe von Daten mit anderen Einheiten, die mit dem Servercomputer 120 verbunden sein können. Zum Beispiel können die eine oder mehreren E/A-Schnittstellen 406 eine Verbindung mit einer oder mehreren externen Einheiten 408 bereitstellen, wie beispielsweise einer Tastatur, einem Tastenblock, einem Touchscreen und/oder einer anderen geeigneten Eingabeeinheit. Die externen Einheiten 408 können zudem tragbare computerlesbare Speicherungsmedien enthalten, wie zum Beispiel USB-Sticks, tragbare optische oder magnetische Platten und Speicherkarten. Die Software und Daten, die verwendet werden, um Ausführungsformen der vorliegenden Erfindung auszuüben, z.B. das Programm 150, können auf solchen tragbaren computerlesbaren Speicherungsmedien gespeichert und über die eine oder mehreren E/A-Schnittstellen 406 auf die permanente Speicherung 405 geladen werden. Die eine oder mehreren E/A-Schnittstellen 406 sind zudem mit einer Anzeige 409 verbunden.
Die Anzeige 409 stellt einen Mechanismus bereit, um einem Benutzer Daten anzuzeigen, und kann zum Beispiel ein Computermonitor sein.
Die hierin beschriebenen Programme werden auf Grundlage der Anwendung angegeben, für die sie in einer bestimmten Ausführungsform der Erfindung umgesetzt sind. Es sollte jedoch verstanden werden, dass jede bestimmte Programmnomenklatur hierin lediglich der Einfachheit halber verwendet wird und somit die Erfindung nicht auf die alleinige Verwendung in einer bestimmten angegebenen und/oder durch eine solche Nomenklatur nahegelegten Anwendung beschränkt sein sollte.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speicherungsmedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speicherungsmedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speicherungsmedium kann es sich zum Beispiel um eine elektronische Speicherungseinheit, eine magnetische Speicherungseinheit, eine optische Speicherungseinheit, eine elektromagnetische Speicherungseinheit, eine Halbleiterspeicherungseinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speicherungsmediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speicherungsmedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speicherungsmedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speicherungseinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speicherungsmedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen und Quantenprogrammiersprachen wie beispielsweise die Programmiersprache „Q“, Q#, Quantum Computation Language (QCL) oder ähnliche Programmiersprachen, maschinennahe Programmiersprachen wie beispielsweise die Assembler-Sprache oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speicherungsmedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das durch einen Computer lesbare Speicherungsmedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder festgelegten Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren (d.h. FIG) veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der festgelegten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die Beschreibungen der vielfältigen Ausführungsformen der vorliegenden Erfindung wurden zu Zwecken der Veranschaulichung vorgelegt, sind jedoch nicht als erschöpfend oder auf die offenbarten Ausführungsformen beschränkt beabsichtigt. Viele Modifikationen und Variationen sind für den Fachmann ersichtlich, ohne vom Umfang der Erfindung abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsform, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt anzutreffenden Technologien am besten zu erklären oder um es anderen Fachleuten zu ermöglichen, die hierin offenbarten Ausführungsformen zu verstehen.

Claims

Computerumgesetztes Verfahren, aufweisend: Bestimmen, durch einen oder mehrere Computerprozessoren, eines Toleranzwerts und eines Normwerts, die einem nicht vertrauenswürdigen Modell und einem gegnerischen Trainingsverfahren zugeordnet sind; Erzeugen, durch einen oder mehrere Computerprozessoren, einer Mehrzahl von interpolierten gegnerischen Bildern, die sich in einem Bereich zwischen einem Paar von Bildern befinden, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer unterschiedlichen Klasse stammt; Erkennen, durch einen oder mehrere Computerprozessoren, einer Hintertür, die dem nicht vertrauenswürdigen Modell zugeordnet ist, das die erzeugte Mehrzahl von interpolierten gegnerischen Bildern benutzt; und Verfestigen, durch einen oder mehrere Computerprozessoren, des nicht vertrauenswürdigen Modells, indem das nicht vertrauenswürdige Modell mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern trainiert wird.
Computerumgesetztes Verfahren nach Anspruch 1, wobei das Erzeugen der Mehrzahl von interpolierten gegnerischen Bildern in einem Bereich zwischen dem Paar von Bildern, die das gegnerische Trainingsverfahren benutzen, aufweist: iteratives Durchführen, durch einen oder mehrere Computerprozessoren, einer oder mehrerer Störungen für jede in einem Testsatz enthaltene Klasse in Richtung einer spezifizierten Klasse in einen Teilsatz von interpolierten gegnerischen Bildern.
Computerumgesetztes Verfahren nach Anspruch 2, wobei die eine oder mehreren Störungen linear interpoliert werden.
Computerumgesetztes Verfahren nach Anspruch 1, ferner aufweisend: Überwachen, durch einen oder mehrere Computerprozessoren, des nicht vertrauenswürdigen Modells unter Benutzung von Human-in-the-Loop-Trainingsverfahren.
Computerumgesetztes Verfahren nach Anspruch 4, ferner aufweisend: periodisches Anzeigen, durch einen oder mehrere Computerprozessoren, eines oder mehrerer Gradienten, die dem nicht vertrauenswürdigen Modell zugeordnet sind.
Computerumgesetztes Verfahren nach Anspruch 1, ferner aufweisend: Filtern, durch einen oder mehrere Computerprozessoren, einer oder mehrerer anschließender Eingaben, welche die erkannte Hintertür enthalten.
Computerumgesetztes Verfahren nach Anspruch 1, wobei das verfestigte Modell zur Schlussfolgerung eingesetzt wird.
Computerumgesetztes Verfahren nach Anspruch 1, ferner aufweisend: Empfangen, durch einen oder mehrere Computerprozessoren, des nicht vertrauenswürdigen Modells, vortrainierter Gewichtungen, eines sauberen Testsatzes, eines Validierungssatzes und des gegnerischen Trainingsverfahrens, wobei der saubere Testsatz und der Validierungssatz jeweils eine Mehrzahl von Bildern mit zugeordneten Kennzeichnungen enthalten.
Computerprogrammprodukt, aufweisend: ein oder mehrere computerlesbare Speicherungsmedien und auf dem einen oder den mehreren computerlesbaren Speicherungsmedien gespeicherte Programmanweisungen, wobei die gespeicherten Programmanweisungen aufweisen: Programmanweisungen zum Bestimmen eines Toleranzwerts und eines Normwerts, die einem nicht vertrauenswürdigen Modell und einem gegnerischen Trainingsverfahren zugeordnet sind; Programmanweisungen zum Erzeugen einer Mehrzahl von interpolierten gegnerischen Bildern, die sich in einem Bereich zwischen einem Paar von Bildern befinden, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer unterschiedlichen Klasse stammt; Programmanweisungen zum Erkennen einer Hintertür, die dem nicht vertrauenswürdigen Modell zugeordnet ist, unter Benutzung der erzeugten Mehrzahl von interpolierten gegnerischen Bildern; und Programmanweisungen zum Verfestigen des nicht vertrauenswürdigen Modells, indem sie das nicht vertrauenswürdige Modell mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern trainieren.
Computerprogrammprodukt nach Anspruch 9, wobei die Programmanweisungen zum Erzeugen der Mehrzahl von interpolierten gegnerischen Bildern in einem Bereich zwischen dem Paar von Bildern, die das gegnerische Trainingsverfahren benutzen, aufweisen: Programmanweisungen zum iterativen Durchführen einer oder mehrerer Störungen für jede in einem Testsatz enthaltene Klasse in Richtung einer spezifizierten Klasse in einen Teilsatz von interpolierten gegnerischen Bildern.
Computerprogrammprodukt nach Anspruch 10, wobei die eine oder mehreren Störungen linear interpoliert sind.
Computerprogrammprodukt nach Anspruch 9, wobei die Programmanweisungen, die auf dem einem oder den mehreren computerlesbaren Speicherungsmedien gespeichert sind, ferner aufweisen: Programmanweisungen zum Überwachen des nicht vertrauenswürdigen Modells unter Benutzung von Human-in-the-Loop-Trainingsverfahren.
Computerprogrammprodukt nach Anspruch 12, wobei die Programmanweisungen, die auf dem einem oder den mehreren computerlesbaren Speicherungsmedien gespeichert sind, ferner aufweisen: Programmanweisungen zum periodischen Anzeigen eines oder mehrerer Gradienten, die dem nicht vertrauenswürdigen Modell zugeordnet sind.
Computerprogrammprodukt nach Anspruch 9, wobei das verfestigte Modell zur Schlussfolgerung eingesetzt wird.
Computersystem, aufweisend: einen oder mehrere Computerprozessoren; ein oder mehrere computerlesbare Speicherungsmedien; und auf den computerlesbaren Speicherungsmedien zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren gespeicherte Programmanweisungen, wobei die gespeicherten Programmanweisungen aufweisen: Programmanweisungen zum Bestimmen eines Toleranzwerts und eines Normwerts, die einem nicht vertrauenswürdigen Modell und einem gegnerischen Trainingsverfahren zugeordnet sind; Programmanweisungen zum Erzeugen einer Mehrzahl von interpolierten gegnerischen Bildern, die sich in einem Bereich zwischen einem Paar von Bildern befinden, die das gegnerische Trainingsverfahren benutzen, wobei jedes Bild in dem Paar von Bildern aus einer unterschiedlichen Klasse stammt; Programmanweisungen zum Erkennen einer Hintertür, die dem nicht vertrauenswürdigen Modell zugeordnet ist, unter Benutzung der erzeugten Mehrzahl von interpolierten gegnerischen Bildern; und Programmanweisungen zum Verfestigen des nicht vertrauenswürdigen Modells, indem sie das nicht vertrauenswürdige Modell mit der erzeugten Mehrzahl von interpolierten gegnerischen Bildern trainieren.
Computersystem nach Anspruch 15, wobei die Programmanweisungen zum Erzeugen der Mehrzahl von interpolierten gegnerischen Bildern in einem Bereich zwischen dem Paar von Bildern, die das gegnerische Trainingsverfahren benutzen, aufweisen: Programmanweisungen zum iterativen Durchführen einer oder mehrerer Störungen für jede in einem Testsatz enthaltene Klasse in Richtung einer spezifizierten Klasse in einen Teilsatz von interpolierten gegnerischen Bildern.
Computersystem nach Anspruch 16, wobei die eine oder mehreren Störungen linear interpoliert sind.
Computersystem nach Anspruch 15, Programmanweisungen zum Überwachen des nicht vertrauenswürdigen Modells unter Benutzung von Human-in-the-Loop-Trainingsverfahren.
Computersystem nach Anspruch 18, wobei die Programmanweisungen, die auf dem einem oder den mehreren computerlesbaren Speicherungsmedien gespeichert sind, ferner aufweisen: Programmanweisungen zum periodischen Anzeigen eines oder mehrerer Gradienten, die dem nicht vertrauenswürdigen Modell zugeordnet sind.
Computersystem nach Anspruch 15, wobei das verfestigte Modell zur Schlussfolgerung eingesetzt wird.