-
GEBIET
-
Die vorliegende Offenbarung bezieht sich allgemein auf Computer-Sicht-Techniken und insbesondere auf Techniken zum Erzeugen eines auf einem antagonistischen Bereich basierenden Bildes für ein neuronales Computer-Sicht-Netzwerk.
-
HINTERGRUND
-
Heutzutage werden Computer-Sicht-Techniken weitläufig in verschiedenen Szenarien wie Überwachung, Autofahren und dergleichen eingesetzt. Deep-Learning-Modelle, insbesondere solche, die auf neuronalen Faltungsnetzwerken (Convolutional Neural Network, CNN) basieren, wurden bereits erfolgreich in der Computer-Sicht-Technik eingesetzt. Jüngste Forschungen haben jedoch gezeigt, dass tiefe neuronale Netzwerke (DNNs) anfällig für antagonistische Angriffe sind. Die Anfälligkeit DNN-basierter Computer-Sicht-Techniken hat zu enormen potentiellen Sicherheitsrisiken für Szenarien wie das Autofahren geführt, was es erforderlich macht, die auf Computer-Sicht-Netzwerke abzielenden antagonistischen Angriffe zu untersuchen.
-
Der störungsbasierte Angriff und der bereichsbasierte Angriff sind zwei gängige Angriffsverfahren. Das störungsbasierte Verfahren basiert auf kleinen Störungen und erlernt additives Vollbildrauschen, das die Vorhersage von Deep-Learning-Modellen mit Störungen beeinflussen kann, die für Menschen kaum wahrnehmbar sind. Da dieses Verfahren jedes Pixel eines Bildes manipuliert, ist es für Angriffe in der physischen Welt nicht geeignet. Das bereichsbasierte Verfahren verwendet einen oder mehrere antagonistische Bereiche, um bestimmte Teile eines Bildes anzugreifen und Änderungen auf Bereichsebene des Bildes zu erzeugen. Da der bereichsbasierte Angriff nur eine oder mehrere Regionen des Bildes verändert, verfügt er über das Potenzial, in der physischen Welt aufzutreten, wie beispielsweise das Verbergen einer Person oder eines Stoppschilds, was für das Autofahren gefährlich ist.
-
Daher sind bereichsbasierte antagonistische Angriffe weitere Forschungen wert, um die Anfälligkeit eines neuronalen Computer-Sicht-Netzwerks für physische Angriffe zu untersuchen und die Sicherheit des neuronalen Netzwerks entsprechend zu verbessern.
-
KURZDARSTELLUNG
-
Nachfolgend wird eine vereinfachte Kurzdarstellung eines oder mehrerer Aspekte gemäß der vorliegenden Offenbarung gegeben, um ein grundlegendes Verständnis für diese Aspekte bereitzustellen. Diese Kurzdarstellung ist kein umfassender Überblick über alle in Betracht gezogenen Aspekte und soll weder wesentliche oder kritische Elemente aller Aspekte aufzeigen noch den Umfang einzelner oder aller Aspekte abgrenzen. Ihr einziger Zweck besteht in der Darstellung einiger Konzepte zu einem oder mehreren Aspekten in vereinfachter Form als Vorbereitung auf die spätere ausführlichere Beschreibung.
-
In einem Aspekt der Offenbarung wird ein Verfahren zum Erzeugen eines Satzes von antagonistischen Bereichen für ein Bild bereitgestellt. Das Verfahren kann das Segmentieren des Bildes in eine Mehrzahl von Regionen; das Auswählen eines Satzes von Zielregionen, der ein Angriffskriterium erfüllt, durch diskretes Durchsuchen der Mehrzahl von Regionen; und das Erzeugen eines Satzes antagonistischer Bereiche unter Verwendung des Satzes von Zielregionen umfassen.
-
In einem anderen Aspekt der Offenbarung wird eine Vorrichtung zum Erzeugen eines Satzes von antagonistischen Bereichen für ein Bild bereitgestellt. Die Vorrichtung kann einen Speicher und zumindest einen mit dem Speicher gekoppelten Prozessor umfassen. Der zumindest eine Prozessor kann zum Segmentieren des Bildes in eine Mehrzahl von Regionen; zum Auswählen eines Satzes von Zielregionen, der ein Angriffskriterium erfüllt, durch diskretes Durchsuchen der Mehrzahl von Regionen; und zum Erzeugen eines Satzes antagonistischer Bereiche unter Verwendung des Satzes von Zielregionen ausgestaltet sein.
-
In einem anderen Aspekt der Offenbarung wird ein computerlesbares Medium bereitgestellt, das Computercode zum Erzeugen eines Satzes von antagonistischen Bereichen für ein Bild speichert. Der Computercode kann, bei Ausführung durch einen Prozessor, den Prozessor zum Segmentieren des Bildes in eine Mehrzahl von Regionen; zum Auswählen eines Satzes von Zielregionen, der ein Angriffskriterium erfüllt, durch diskretes Durchsuchen der Mehrzahl von Regionen; und zum Erzeugen eines Satzes von antagonistischen Bereichen unter Verwendung des Satzes von Zielregionen veranlassen.
-
In einem anderen Aspekt der Offenbarung wird ein Computerprogrammprodukt zum Erzeugen eines Satzes von antagonistischen Bereichen für ein Bild bereitgestellt. Das Computerprogrammprodukt kann prozessorausführbaren Computercode zum Segmentieren des Bildes in eine Mehrzahl von Regionen; zum Auswählen eines Satzes von Zielregionen, der ein Angriffskriterium erfüllt, durch diskretes Durchsuchen der Mehrzahl von Regionen; und zum Erzeugen eines Satzes von antagonistischen Bereichen unter Verwendung des Satzes von Zielregionen umfassen.
-
Andere Aspekte oder Variationen der Offenbarung werden durch die Betrachtung der folgenden ausführlichen Beschreibung und der begleitenden Zeichnungen deutlich.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Die folgenden Figuren zeigen verschiedene Ausführungsformen der vorliegenden Offenbarung, die lediglich der Veranschaulichung dienen. Ein Fachmann auf dem Gebiet der Technik wird aus der folgenden Beschreibung leicht erkennen, dass alternative Ausführungsformen der hierin offenbarten Verfahren und Strukturen implementiert werden können, ohne von dem Geist und den Grundsätzen der hierin beschriebenen Offenbarung abzuweichen.
- 1 veranschaulicht ein Beispiel für die Objekterkennung gemäß einem Aspekt der Computer-Sicht-Aufgaben.
- 2 veranschaulicht ein Beispiel eines antagonistischen Angriffsfehlers bei der Objekterkennung gemäß einem Aspekt des Standes der Technik.
- 3 veranschaulicht ein Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 4A-4B veranschaulichen ein Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 5A-5B veranschaulichen ein Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 6 veranschaulicht ein Ablaufdiagramm eines Verfahrens zum Erzeugen von Bereichen für ein Bild gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 7 veranschaulicht ein Ablaufdiagramm eines Verfahrens zum Erzeugen von Bereichen für ein Bild gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 8 veranschaulicht ein Beispiel für eine Hardware-Implementierung für eine Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung.
- 9 veranschaulicht ein Beispiel eines angegriffenen Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung.
-
AUSFÜHRLICHE BESCHREIBUNG
-
Vor der ausführlichen Erläuterung von Ausführungsformen der vorliegenden Offenbarung ist zu verstehen, dass die Offenbarung in ihrer Anwendung nicht auf die in der folgenden Beschreibung dargelegten Einzelheiten des Aufbaus und der Anordnung der Merkmale beschränkt ist. Die Offenbarung kann in anderen Ausführungsformen auf verschiedene Weise praktiziert oder ausgeführt werden.
-
Die Objekterkennung ist eine Art von Computer-Sicht-Aufgabe, die sich mit der Identifizierung und Lokalisierung von Objekten bestimmter Klassen in einem Bild beschäftigt. Die vorliegende Offenbarung wird an dem Beispiel der Objekterkennung beschrieben, wobei zu beachten ist, dass die vorliegende Offenbarung auch auf andere neuronale Computer-Sicht-Netzwerke angewendet werden kann, die verschiedene Arten von Vorhersagen basierend auf einem Eingangsbild bereitstellen können.
-
Bei der Objekterkennung wurde ein tiefes neuronales Netzwerk angewendet und erzielte große Erfolge. Objektdetektoren mit tiefen neuronalen Netzwerken, insbesondere basierend auf neuronalen Faltungsnetzwerken, können in einstufige Detektoren und zweistufige Detektoren unterteilt werden.
-
Bei zweistufigen Detektoren besteht die Vorhersage aus Regionsvorschlägen und anschließender Klassifizierung. Der erste Detektor mit einem tiefen neuronalen Netzwerk war OverFeat, was ein gleitendes Fenster und ein neuronales Faltungsnetzwerk (CNN) für die Erkennung kombiniert. Danach wurden Regionen mit neuronalen Faltungsnetzwerken (R-CNN) vorgeschlagen. Die zweistufigen Detektoren suchen zunächst nach Regionsvorschlägen und klassifizieren dann jeden einzelnen davon. Ein Problem von R-CNN ist, dass es zu langsam läuft. Daher wurden zur Beschleunigung einige moderne Detektoren wie Fast R-CNN, Faster R-CNN und Mask R-CNN vorgeschlagen.
-
1 veranschaulicht ein Beispiel für die Objekterkennung als eine Art von Computer-Sicht-Aufgaben. Bild 110 ist ein sauberes Originalbild. Die Person in der Mitte des Bildes 110 ist das Zielobjekt. Bild 120 zeigt ein Vorhersageergebnis des schnelleren R-CNN-Objektdetektors auf Bild 110. Wie durch den Begrenzungsrahmen 125 im Bild 120 dargestellt, kann der schnellere R-CNN-Objektdetektor das Zielobjekt in dem sauberen Bild erfolgreich erkennen.
-
Einstufige Detektoren, auch bekannt als „Einzelaufnahme-Detektoren“, können den Begrenzungsrahmen, die Objektbewertung und die Klassenbewertung mit nur einem einzigen Durchlauf durch das Netzwerk vorhersagen. Der einstufige Detektor extrahiert Merkmale nur mit einem CNN und stellt das Ergebnis für die Objektlokalisierung und -klassifizierung sofort zur Verfügung. Dieser Unterschied macht den einstufigen Detektor schneller, jedoch leichter angreifbar. Im Gegensatz dazu ist der zweistufige Detektor langsamer, aber wertvoller und schwieriger anzugreifen.
-
Es wurden viele antagonistische Angriffsmethoden gegen Computer-Sicht-Systeme vorgeschlagen, die zweistufige Objektdetektoren enthalten, um die Sicherheit eines auf DNN basierenden, gelernten Computer-Sicht-Systems zu bewerten. Aus der Perspektive der Musterform lassen sich die antagonistischen Angriffe als störungsbasierte Angriffe und bereichsbasierte Angriffe klassifizieren. Da der störungsbasierte Angriff jedes Pixel eines Bildes manipuliert und in der physischen Welt nicht durchführbar ist, während der bereichsbasierte Angriff einen oder mehrere antagonistische Bereiche verwendet, um ein Bild anzugreifen, und in der physischen Welt ein potenzielles Sicherheitsrisiko darstellen kann, konzentriert sich die vorliegende Offenbarung hauptsächlich auf das bereichsbasierte Verfahren zur Erzeugung eines antagonistischen angegriffenen Bildes, um die Sicherheit eines neuronalen Computer-Sicht-Netzwerks zu bewerten und zu verbessern.
-
Der bereichsbasiert Angriff modifiziert allgemein bestimmte Bildteile mit sichtbaren Änderungen, wie antagonistischen Bereichen. Die Texturen in modifizierten Teilen werden durch das Originalbild nicht eingeschränkt, was bedeutet, dass Bereiche wahrnehmbare Texturen aufweisen können. Bestehende bereichsbasierte Angriffsverfahren sind jedoch nicht flexibel in Bezug auf die Positionen und Formen der Bereiche, was die Angriffsleistung einschränken kann, wenn diese Eigenschaften eingeschränkt sind.
-
Erstens sind die Positionen der Bereiche in bestehenden bereichsbasierten Verfahren festgelegt. Das DPatch-Verfahren verwendet beispielsweise die linke obere Ecke eines Bildes, das AdvPatch-Verfahren nimmt die Mitte der Person in einem Bild als Angriffsregion, und das UPC-Verfahren setzt seine antagonistischen Bereiche auf 8 manuell ausgewählte Teile der Person. Zweitens sind die Formen der Bereiche in dem bestehenden bereichsbasierten Verfahren ebenfalls festgelegt, üblicherweise ein Rechteck. Ein Rechteck ist in einem digitalen Bild leicht zu definieren, hat jedoch keinen Bezug zu der Form des Zielobjekts. Die Form- und Positionseinstellungen dieser bestehenden bereichsbasierten Verfahren können bei verschiedenen Aufgaben der Objekterkennung, wie Fehlklassifizierung, Positionsverschiebung und Verschwinden, zu einer schlechten Angriffsleistung führen. Dies zeigt, dass diese eingeschränkten Angriffsregionen nicht effizient genug sind, um die Sicherheit eines neuronalen Computer-Sicht-Netzwerks zu bewerten.
-
2 veranschaulicht ein Beispiel eines antagonistischen Angriffsfehlers bei der Objekterkennung gemäß einem Aspekt des Standes der Technik. Bild 210 stellt einen mit dem Verfahren AdvPatch erzeugten antagonistischen Bereich dar. Die Position des Bereichs in dem Bild 210 ist auf die Mitte der Person festgelegt. Bild 220 stellt ein angegriffenes Bild dar, indem das Bild 210 dem sauberen Bild 110 in 1 überlagert ist. Der Begrenzungsrahmen 225 ist die Vorhersage durch einen zweistufigen Objektdetektor von Faster R-CNN auf dem angegriffenen Bild. Wie durch den Begrenzungsrahmen 225 dargestellt, kann der Faster R-CNN-Detektor das Zielobjekt aus dem von AdvPatch angegriffenen Bild erkennen und das Objekt mit einer Zuverlässigkeit von 0,66 als „Person“ klassifizieren. Mit anderen Worten: Das AdvPatch-Verfahren versagt bei dem Angriff auf das Bild und reicht möglicherweise nicht aus, um die Sicherheit eines Faster R-CNN-Detektors zu bewerten. Können die Formen und Positionen der Bereiche optimiert werden, bleibt immer noch Raum für eine Verbesserung der Angriffsleistung und eine Verkleinerung der Angriffsbereiche im Vergleich zu den Verfahren mit eingeschränkten Angriffspositionen und Formen.
-
3 veranschaulicht ein Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung. Wie in 3 dargestellt, können die Parameter eines Bereichs Pi die Position pi, die Form si und die Textur ti enthalten. Die vorliegende Offenbarung optimiert nicht nur die Texturen der Bereiche, sondern auch zumindest eine der Positionen und der Formen der Bereiche, wodurch die Angriffsleistung und -effizienz auf ein Bild verbessert wird. Die Position der Bereiche kann an einer beliebigen Stelle in dem Bild liegen. In einem Aspekt kann die Position auf ein Vordergrundobjekt in dem Bild beschränkt werden, um die physischen Szenarien zu simulieren. Das liegt vor allem daran, dass die Angreifer in physischen Szenarien ihre Bereiche normalerweise auf der Oberfläche des Zielobjekts anbringen. Die Form der einzelnen Bereiche kann aus einem Satz verschiedener vorher entworfener Formen ausgewählt werden, wie beispielsweise Quadrat, Ellipse, Rhombus, Dreieck, Trapez und andere regelmäßige/unregelmäßige Formen. In einem Aspekt kann der Satz von Formen auf konvexe Formen beschränkt sein. In physischen Szenarien können die konvexen Bereiche leichter aus bedruckten Papieren ausgeschnitten werden und halten ihre Form besser, wenn sie auf die Oberfläche eines Objekts geklebt werden.
-
In einer Ausführungsform der Optimierung aller Parameter der Positionen, der Formen und der Texturen für jeden Bereich kann der i-te Bereich als ein Tupel von P
i = (s
i, p
i, t
i) bezeichnet werden, wobei s
i, p
i, t
i die Form, die Position bzw. die Textur des Bereichs darstellen, wie in
3 veranschaulicht. Dementsprechend kann die Optimierung der Parameter der Bereiche auf einer folgenden Zielfunktion basieren:
wobei f ein Objekterkennungsmodell ist (z. B. Faster R-CNN, Mask R-CNN, usw.), x ein Originalbild vor dem Angriff ist (z. B. Bild 110), y die Ground-Truth-Annotation des Bildes ist (z. B. der Begrenzungsrahmen 125 in Bild 120), ⊕ überlagernde Bereiche auf einem Bild darstellt,
das Bild mit modifizierten Texturen in den Regionen gemäß jedem
darstellt, L(•) eine Verlustfunktion ist, die die Differenz zwischen der Vorhersage des Objekterkennungsmodells auf dem angegriffenen Bild
und der Ground-Truth-Annotation y misst, φ(•) eine Funktion zur Berechnung der Fläche der Region jedes Bereichs ist und λ ein Gleichgewichtsparameter ist. Eine bestimmte Verlustfunktion kann von einer bestimmten Angriffsaufgabe abhängig sein.
-
In einer Ausführungsform können die Bereiche mit
und
eingeschränkt werden, wobei
der Satz aller konvexen Grafiken auf der 2D-Ebene und B der Hintergrund des Bildes ist. Mit anderen Worten sind die Bereiche zwangsläufig konvex und nur im Vordergrund vorhanden. Durch Maximierung von
wird die Differenz zwischen der vorhergesagten Ausgabe und der Ground-Truth-Annotation maximiert, was zu einer Leistungsminderung des Detektors bei verschiedenen Angriffsaufgaben führt. In der Zwischenzeit wird
die Fläche der Region bestrafen, die durch einen Ausgleichsparameter λ gewichtet wird. Dies fördert die Optimierung, um Bereiche mit kleinerer Fläche zu erhalten und gleichzeitig eine zufriedenstellende Leistung zu erzielen.
-
Da jedoch die Parameter für Position und Form in einem diskreten Raum auf Pixelebene definiert sind, wird die Verlustfunktion in Gleichung (1) für die Optimierung nicht differenzierbar. Daher können die Positionen und Formen der Bereiche ihre optimalen Punkte nicht nur mit traditionellen Gradientenabstiegsverfahren erreichen.
-
Anstatt die Parameter von Positionen und Formen direkt zu optimieren, kann ein Bild in eine Mehrzahl von kleinen Regionen übersegmentiert werden, und danach können einige dieser kleinen Regionen gemäß einem Aspekt der vorliegenden Offenbarung als Angriffsregionen ausgewählt werden. Auf diese Weise kann das ursprüngliche Optimierungsproblem in Gleichung (1) in ein diskretes Suchproblem umformuliert werden.
-
4A-4B veranschaulichen ein Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung. Wie in 4A dargestellt, ist das Bild durch eine Mehrzahl von parallelen vertikalen Linien und eine Mehrzahl von parallelen Horizontlinien in eine Mehrzahl von Regionen segmentiert. Der Abstand zwischen den parallelen Linien kann gleich sein. Der Abstand zwischen den parallelen Linien kann auch unterschiedlich sein. Die Segmentierung kann auf einer vorbestimmten Anzahl von Regionen basieren. Wenn zum Beispiel vorgegeben ist, das Bild in 625 Regionen zu segmentieren, kann das Bild durch 24 vertikale Linien und 24 Horizontlinien segmentiert werden. Die vorgegebene Anzahl kann ein Gleichgewicht zwischen der Angriffsleistung und der Komplexität der Berechnung sein. In anderen Ausführungsformen kann die Segmentierung auf einer oder mehreren vorgegebenen Formen basieren, sodass das Bild in verschiedene Muster segmentiert werden kann. Obwohl in einigen Ausführungsformen die Form jeder Region feststeht und nicht optimiert werden kann, kann eine Reihe von zusammenhängenden Regionen einen Bereich mit unterschiedlichen Formen darstellen. Mit anderen Worten kann ein erzeugter Bereich aus mehreren angrenzenden Regionen bestehen, und somit kann die Form eines Bereichs bis zu einem gewissen Grad durch die Optimierung der Auswahl der einzelnen Regionen optimiert werden.
-
Auf diese Weise kann die Optimierung der Parameter von Positionen und Formen in ein diskretes Suchproblem transformiert werden, ob eine Region als Zielregion ausgewählt werden soll oder nicht, wie die Region R i (das heißt, die i-te Region) in 4A. Anders ausgedrückt kann ein Satz von Zielregionen, die ein Angriffskriterium erfüllen, als Angriffsregionen ausgewählt werden, indem die Mehrzahl der Regionen diskret durchsucht wird. Die ausgewählten Regionen können auf das Vordergrundobjekt in dem Bild beschränkt sein, und dementsprechend kann die Segmentierung auch nur auf dem Vordergrundobjekt in dem Bild durchgeführt werden. In einer Ausführungsform für die Lösung dieses diskreten Suchproblems können die 0-1-Werte zur Darstellung einer Auswahl der einzelnen Regionen verwendet und als diskrete Zufallsvariablen genommen werden. In einer Ausführungsform kann davon ausgegangen werden, dass jede Zufallsvariable jeweils und unabhängig eine Bernoulli-Verteilung befolgt. Die Bernoulli-Verteilung ist eine grundlegende diskrete Wahrscheinlichkeitsverteilung, die in {0, 1} definiert ist. Die Parameter dieser Bernoulli-Verteilungen können unter Verwendung von natürlichen Evolutionsstrategien (NES) geschätzt werden, die für die Schätzung von Parameterverteilungen häufig verwendet werden und für unser diskretes Suchproblem geeignet sind. Mit NES können die Verteilungsparameter schrittweise erhalten werden, und die Regionen mit hoher Wahrscheinlichkeit können ausgewählt werden.
-
Dann können für die ausgewählten Regionen deren Texturen durch iterative Gradienten-Rückwärtspropagation und Minimierung des Konfidenzwerts der vorhergesagten Begrenzungsrahmen auf dem angegriffenen Bild, das von Texturen in den entsprechenden ausgewählten Regionen überlagert wird, modifiziert werden. Die Texturen für jede der ausgewählten Regionen können auch als die während der Auswahlphase der Region vorbestimmten oder berechneten Texturen beibehalten werden. 4B veranschaulicht ein Beispiel für Bereiche, die basierend auf den ausgewählten Regionen und den modifizierten Texturen erzeugt wurden. In einer Ausführungsform, in der nur die Positionen der antagonistischen Bereiche optimiert werden, kann die Textur für die ausgewählten Regionen basierend auf der Standardkonfiguration ermittelt werden. Die Textur kann beispielsweise als eine Textur mit pseudozufälligem Rauschen festgelegt werden, wie in 4A in dem oberen Teil der Kandidaten-Texturen dargestellt.
-
5A-5B veranschaulichen ein weiteres Beispiel für Bereiche für einen antagonistischen Angriff auf die Objekterkennung gemäß einer Ausführungsform der vorliegenden Offenbarung. Der Hauptunterschied zwischen den Bereichen in dem Beispiel der 5A-5B und den Bereichen in dem Beispiel der 4A-4B ist, dass die Segmentierung des Bildes auf Superpixeln basieren kann. Superpixel können ein Bild in kleine Regionen einheitlicher Farbe oder Textur segmentieren. Eine wesentliche Eigenschaft von Superpixeln ist die Erhaltung von Objektgrenzen, d. h., alle Pixel in einem Superpixel können zu demselben Objekt gehören. Da Superpixel als wichtiger Anhaltspunkt zum Messen der Vorhersageleistung des Objektdetektors mit dem Grad der den Begrenzungsrahmen überspannenden Superpixel verwendet werden können, kann ein antagonistischer Angriff auf Superpixel die Vorhersagen des Objektdetektors beeinflussen.
-
Daher wird das Bild, wie in
5A dargestellt, in eine Mehrzahl von Regionen segmentiert, wobei jede Region ein Superpixel, wie etwa sPi, ist. Die Segmentierung kann auf der simplen linearen iterativen Clustering-(SLIC-)Technik basieren, die ein weit verbreitetes Verfahren zur Segmentierung eines Bildes in Superpixel ist. Um kleine Superpixel zu erhalten, die zu einem feinkörnigen Angriff führen können, kann der Zusammenführungsprozess bei der Erzeugung von Superpixeln entfernt werden. In dem Beispiel von
5A wird die Segmentierung von Superpixeln auf das Vordergrundobjekt (d. h. die Person) in dem Bild beschränkt. In einer Ausführungsform mit Einschränkung der konvexen Formen, da die Superpixel von dem Muster eines Bildes abhängen und verschiedene Formen aufweisen können, kann eine Operation zum Erhalten konvexer Umhüllungen für die Superpixel durch eine Funktion von
durchgeführt werden, wie in
5A dargestellt.
-
Danach kann ein Satz von Regionen als Angriffsregionen ausgewählt werden, und für jede der ausgewählten Regionen können Texturen ermittelt werden, ähnlich wie vorstehend unter Bezugnahme auf die 4A und 4B beschrieben. 5B veranschaulicht ein Beispiel für Bereiche, die basierend auf den ausgewählten Regionen und den ermittelten Texturen erzeugt wurden. Es ist zu erkennen, dass die Formen der Bereiche aufgrund der Eigenschaft von Superpixeln nicht fixiert sind.
-
6 veranschaulicht ein Ablaufdiagramm eines Verfahrens 600 zum Erzeugen von Bereichen für ein Bild gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren 600 kann unter Bezugnahme auf 4A und 5A implementiert werden, und die 4B und 5B veranschaulichen die Ergebnisse der Durchführung des Verfahrens 600, wobei das Verfahren 600 nicht auf die unter Bezugnahme auf die 4A-4B und 5A-5B beschriebenen Ausführungsformen beschränkt ist.
-
In Block 610 kann das Verfahren 600 die Segmentierung eines Bildes in eine Mehrzahl von Regionen umfassen. Das Bild kann ein Originalbild mit Grundwahrheitskennungen zum Trainieren und/oder Prüfen eines neuronalen Computer-Sicht-Netzwerks sein. Das neuronale Computer-Sicht-Netzwerk kann für die Objekterkennung, Instanzsegmentierung usw. verwendet werden. Die Segmentierung kann auf einer vorgegebenen Form oder einer vorgegebenen Anzahl von Regionen basieren. Die vorgegebene Form kann ein regelmäßiges Polygon sein, wie etwa ein Dreieck, ein Quadrat, eine Raute, ein Trapez, ein Fünfeck, ein Sechseck, usw. Die vorgegebene Form kann auch eine unregelmäßige Polygonform sein. Die Segmentierung kann auf unterschiedlichen Mustern basieren, die von der Charakteristik des Eingabebildes abhängig sein können. Die Segmentierung kann auf ein Vordergrundobjekt des Bildes beschränkt sein.
-
In einer Ausführungsform kann die Segmentierung in Block 610 die Segmentierung des Bildes in eine Mehrzahl von Regionen basierend auf Pixeln umfassen, die Werte innerhalb eines Schwellenbereichs aufweisen. Zum Beispiel kann jede der Mehrzahl von Regionen des Bildes einheitliche Farb- oder Texturwerte aufweisen und als Superpixel bezeichnet werden. Die Form jedes Superpixels kann basierend auf dem Muster des Bildes an verschiedenen Stellen des Bildes unterschiedlich sein. In dieser Ausführungsform kann die Segmentierung in Block 610 außerdem das Ändern der Mehrzahl von Regionen in konvexe Formen umfassen, indem für jede der Mehrzahl von Regionen eine konvexe Umhüllung ermittelt wird.
-
In Block 620 kann das Verfahren 600 das Auswählen eines Satzes von Zielregionen, der ein Angriffskriterium erfüllt, durch diskretes Durchsuchen der Mehrzahl von Regionen umfassen. In einer Ausführungsform kann ein Auswahlvektor der Mehrzahl von Regionen verwendet werden, um anzugeben, ob jede der Mehrzahl von Regionen in den Satz von Zielregionen ausgewählt werden soll. Die Dimension des Auswahlvektors hängt von der Anzahl der Mehrzahl von Regionen ab. Jedes Element des Auswahlvektors weist einen Wert von 1 oder 0 auf, der angibt, ob eine entsprechende Region auszuwählen ist oder nicht, und es wird davon ausgegangen, dass es jeweils und unabhängig einer Bernoulli-Verteilung folgt. Daher kann das Auswählen eines Satzes von Zielregionen in Block 620 das Optimieren einer Wahrscheinlichkeitsverteilung des Auswahlvektors durch Berechnen eines Suchgradienten und das Auswählen des Satzes von Zielregionen basierend auf einem Auswahlvektor, der basierend auf der optimierten Wahrscheinlichkeitsverteilung abgetastet wurde, umfassen.
-
Mit anderen Worten kann das Auswählen eines Satzes von Zielregionen in Block 620 gemäß verschiedenen Ausführungsformen auf unterschiedlichen Zielfunktionen einer Ausgabe eines neuronalen Computer-Sicht-Netzwerks für ein Bild, das durch den Satz von Bereichen angewendet wird, einer Grundwahrheitskennung des Originalbildes und einer Gesamtfläche des erzeugten Satzes von Bereichen basieren. In dem Beispiel von
4A kann die in Gleichung (1) definierte Optimierungszielfunktion wie folgt umformuliert werden:
wobei f ein Objekterkennungsmodell ist, x ein Originalbild vor dem Angriff (z. B. Bild 110) ist, y eine Ground-Truth-Annotation des Bildes ist, m = (m
1, m
2, ... , m
M)∈{0, 1}
M der Auswahlvektor ist, der angibt, ob eine entsprechende Region Ri ausgewählt ist oder nicht, M von der Anzahl der segmentierten Mehrzahl von Regionen abhängt, Ri die i-te segmentierte Region darstellt, da nach der Segmentierung die Formen der Regionen ermittelt werden und die Positionen durch das entsprechende Element in dem Auswahlvektor dargestellt werden können, nur die Textur für Ri berücksichtigt wird, ⊕ überlagernde Bereiche (basierend auf den Regionen und Texturen) auf einem Bild darstellt. L(•) ist eine Verlustfunktion, die die Differenz zwischen der Vorhersage des Objekterkennungsmodells auf dem angegriffenen Bild f(x ⊕ΣimiRi) und der Ground-Truth-Annotation y misst, L(•) eine Funktion zur Berechnung der Gesamtfläche aller angegriffenen Regionen und λ ein Gleichgewichtsparameter ist. Die Einschränkungen in Gleichung (1) können durch ein gut durchdachtes Segmentierungsverfahren beseitigt werden.
-
In dem Beispiel von
5A, kann die in Gleichung (1) definierte Optimierungszielfunktion wie folgt umformuliert werden:
wobei f ein Objekterkennungsmodell ist, x ein Originalbild vor dem Angriff (z. B. Bild 110) ist, y die Ground-Truth-Annotation des Bildes ist, m = (m1, m2, ..., m
M)∈{0, 1}
M der Auswahlvektor ist, M von der Anzahl der segmentierten Superpixel abhängt,
das i-te Superpixel darstellt, Ω(•) eine Funktion zum Erhalten konvexer Umhüllungen der Superpixel ist, da nach der Übersegmentierung die Formen der Regionen von den Superpixeln abhängen und die Positionen durch das entsprechende Element in dem Auswahlvektor dargestellt werden können, wird für sPi nur die Textur berücksichtigt, ⊕ stellt überlagernde Bereiche (basierend auf den Regionen und Texturen) auf einem Bild dar. L(•) ist eine Verlustfunktion, die die Differenz zwischen der Vorhersage des Objekterkennungsmodells auf dem angegriffenen Bild
und der Ground-Truth-Annotation, y, misst, φ(•) ist eine Funktion zur Berechnung der Summenfläche aller angegriffenen Regionen, und λ ist ein Gleichgewichtsparameter.
-
Gemäß den Gleichungen (2) und (3) wird die Optimierung von Formen, Positionen und Texturen in Gleichung (1) in die Optimierung eines Auswahlvektors (m) und Texturen ({Ri} oder {sPi}) umgewandelt. In einer Ausführungsform kann der Auswahlvektor unter Verwendung von natürlichen Evolutionsstrategien (NES) optimiert werden, und die Texturen können unter Verwendung eines iterativen Gradientenanstiegs optimiert werden. Gemäß der umformulierten Zielfunktion in Gleichung (3) kann zum Beispiel eine Fitnessfunktion zur Optimierung von m mit NES wie folgt definiert werden:
wobei
was bedeutet, dass
das Superpixel
ist, dessen optimale Textur durch m und y ermittelt wird. Hier kann die optimale Textur jedes Superpixels in
zusammen als t* bezeichnet werden. t* wird durch Gradientenanstieg berechnet. Die erwartete Fitness unter einer Suchverteilung kann definiert werden als:
wobei π eine Suchverteilung von m ist. Für m. Für m∈{0, 1}
M wird davon ausgegangen, dass es der Bernoulli-Verteilung Bern(g(θm)) folgt, wobei θm ∈ R
M der Verteilungsparameter ist,
ist die Funktion, die den Wert der Wahrscheinlichkeit auf [0, 1] einschränkt. Dann kann der Suchgradient wie folgt berechnet werden:
-
In einer Ausführungsform kann eine Schätzung des Suchgradienten aus den Proben m
1, m
2, ... m
K erhalten werden als:
wobei K eine Populationsgröße ist, die eine ganze Zahl von 20 bis 50 sein kann.
-
Die Verlustfunktion in den Gleichungen (1)~(3) kann von einer bestimmten Angriffsaufgabe, wie z. B. Fehlklassifizierung, Positionsverschiebung und Verschwinden, abhängig sein. Die Aufgabe der Fehlklassifizierung umfasst zwei verschiedene Aufgaben, einen zielgerichteten Angriff und einen nicht-zielgerichteten Angriff. Bei einem gezielten Angriff sollte der antagonistische Angriff den Detektor dazu bringen, die Zielklasse auf dem Zielobjekt vorherzusagen. Bei einem nicht zielgerichteten Angriff sollte der antagonistische Angriff den Detektor dazu bringen, die richtige Klasse nicht vorherzusagen zu können. Bei der Positionsverschiebungsaufgabe sollte der antagonistische Angriff den vorhergesagten Begrenzungsrahmen des Opferobjekts so weit wie möglich verschieben. Bei der Aufgabe „Verschwinden“ sollte ein antagonistischer Angriff das gegebene Objekt für den Detektor unsichtbar machen.
-
Für die Aufgabe der nicht-zielgerichteten Fehlklassifizierung kann die Verlustfunktion in Gleichung (3) zum Beispiel wie folgt festgelegt werden:
wobei b der vorhergesagte Begrenzungsrahmen ist, B* der Begrenzungsrahmen ist, der als gleiche Position wie der Ground-Truth-Begrenzungsrahmen erkannt werden kann, C der Klassifikator des Detektors ist,
die von dem Klassifikator für den Begrenzungsrahmen b vorhergesagte Klassifizierungsbewertung ist, ζ(•) gibt die von dem Modell vorhergesagte Klassifizierungsbewertung der Ground-Truth-Kategorie aus.
-
Für die Positionsverschiebungsaufgabe kann die Verlustfunktion in Gleichung (3) wie folgt festgelegt werden:
wobei b der vorhergesagte Begrenzungsrahmen ist, B' der Satz der erkannten Begrenzungsrahmen ist, die dem Ground-Truth-Objekt am nächsten sind, |pc (b)- pc (y)| die L
1-Norm der Koordinatendifferenz ist, pc(•) die zentralen Koordinaten des vorhergesagten Begrenzungsrahmens oder des Ground-Truth-Begrenzungsrahmens ist.
-
Für die Aufgabe „Verschwinden“ kann der gegenüberliegende Wert der Summe aus Objektkonfidenz und Klassifizierungsbewertung über einem bestimmten Schwellenwert als Verlustfunktion in Gleichung (3) festgelegt werden. Objektkonfidenz kann zum Messen der Wahrscheinlichkeit der Existenz eines beliebigen Objekts in dem Begrenzungsrahmen verwendet werden. Die Klassifizierungsbewertung kann zum Messen der Wahrscheinlichkeit der Existenz einer bestimmten Klasse in dem Begrenzungsrahmen verwendet werden.
-
Bei Block 630 kann das Verfahren 600 das Erzeugen eines Satzes von antagonistischen Bereichen unter Verwendung des Satzes von Zielregionen umfassen. 4B und 5B veranschaulichen die erzeugten antagonistischen Bereiche in den ausgewählten Zielregionen mit den entsprechenden Texturen, die für die ausgewählten Zielregionen optimiert wurden. Insbesondere basieren die Formen der antagonistischen Bereiche, wie in 5B dargestellt, auf den konvexen Umhüllungen der segmentierten Superpixel. Obwohl, wie in den Figuren dargestellt, der erzeugte Satz von antagonistischen Bereichen eine Mehrzahl von Bereichen umfasst, kann er auch nur einen einzigen antagonistischen Bereich umfassen. Mit anderen Worten kann die Anzahl der Bereiche in dem Satz der antagonistischen Bereiche nicht im Voraus ermittelt werden und kann von einem Optimierungsergebnis in Block 620 abhängen.
-
In einer Ausführungsform können die Texturen des Satzes antagonistischer Bereiche als die Texturen beibehalten werden, die bei der Auswahl des Satzes von Zielregionen verwendet werden. In einer anderen Ausführungsform umfasst das Erzeugen des Satzes von antagonistischen Bereichen in Block 630 ferner das Modifizieren von Texturen für den Satz von antagonistischen Bereichen. Die Texturen des Satzes antagonistischer Bereiche können auf einer Standardkonfiguration basieren. Beispielsweise können die Texturen der antagonistischen Bereiche mit einem iterativen Gradientenanstieg modifiziert werden. Die Texturen des Satzes der antagonistischen Bereiche können auch aus einem Texturwörterbuch ausgewählt werden.
-
Das Verfahren 600 kann ferner das Anwenden des Satzes von antagonistischen Bereichen auf das Originalbild umfassen, um ein antagonistisches angegriffenes Bild zu erzeugen. Der Satz antagonistischer Bereiche kann auf das Originalbild durch Überlagerung des Satzes antagonistischer Bereiche auf die entsprechenden Zielregionen des Originalbildes angewendet werden, oder durch Ersetzen der entsprechenden Zielregionen des Originalbildes durch den Satz antagonistischer Bereiche. 9 veranschaulicht ein Beispiel eines angegriffenen Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung. Bild 910 ist ein angegriffenes Bild, das durch Überlagerung der antagonistischen Bereiche in 5B mit dem Originalbild 110 in 1 erzeugt wurde. Der Begrenzungsrahmen 920 ist die Vorhersage von Faster R-CNN auf dem Originalbild. Nachdem das Bild jedoch von den gemäß einer Ausführungsform der vorliegenden Offenbarung erzeugten antagonistischen Bereichen angegriffen wurde, gelingt es dem Faster R-CNN nicht, die Person auf dem angegriffenen Bild 910 zu erkennen. Mit anderen Worten könnte der Faster R-CNN potenzielle Sicherheitsprobleme aufweisen, wenn er eine Person in einem Bild ignoriert, die auf diese Weise angegriffen wird.
-
7 veranschaulicht ein Ablaufdiagramm eines Verfahrens 700 zum Erzeugen von Bereichen für ein Bild gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren 700 wird unter Bezugnahme auf 5A beschrieben, wobei anerkannt werden sollte, dass das Verfahren 700 auch auf andere gleichwertige oder alternative Ausführungsformen angewendet werden kann, ohne dass dies von dem Anwendungsbereich der vorliegenden Offenbarung abweicht.
-
Das Verfahren 700 kann in Block 710 beginnen und umfasst das Empfangen eines Eingabebildes x, einer Ground-Truth-Kennung y, eines Anfangswerts des Verteilungsparameters θminit,, und der Populationsgröße K. in einem Beispiel kann der Verteilungsparameter ein Anfangsparameter der Bernoulli-Verteilung sein, und die Populationsgröße kann als 30 oder 40 ausgelegt sein. In Block 720 umfasst das Verfahren 700 das Initialisieren von Superpixeln, d. h., die Übersegmentierung des Bildes x in Superpixel, wobei jedes Superpixel einer Region des Bildes entspricht und eine andere Form aufweist. Die Übersegmentierung kann auf ein Vordergrundobjekt des Bildes beschränkt sein.
-
Nach der Segmentierung kann das Verfahren 700 in Block 730 Folgendes umfassen: Ziehen einer Stichprobe des Auswahlvektors m
i basierend auf einer Suchverteilung π(m|θ
m), wobei i = 1~K; Berechnen des optimalen t* basierend auf y und m
i; Bewertung der Fitness
in Gleichung (4); und Berechnen der Log-Derivate ∇θ
m log π(m|θ
m)= 2(m - g(θ
m)) in Gleichung (7). In Block 740 wird ermittelt, ob i K erreicht. Falls nicht, wird i um 1 erhöht, und das Verfahren 700 kann zu Block 730 zurückkehren. Wenn ja, kann das Verfahren 700 zu Block 750 übergehen, wo ein Suchgradient ∇θ
mJ(θ
m) gemäß Gleichung (8) berechnet wird, und der Verteilungsparameter wird aktualisiert gemäß θ
m ← θ
m + η∇θ
m J(θ
m), wobei die Lernrate ist. In Block 760 wird dann ermittelt, ob das Stoppkriterium erfüllt ist. Das Stoppkriterium kann sein, dass die Fitnessfunktion einen vorbestimmten Schwellenwert erreicht, dass der Verteilungsparameter eine Konvergenzbedingung erreicht oder dass der Verteilungsparameter eine maximale Anzahl von Aktualisierungen erfahren hat. ist das Stoppkriterium nicht erfüllt, kann das Verfahren 700 zu den Blöcken 730 und 740 zurückkehren, in denen weitere K Stichproben des Auswahlvektors basierend auf der aktualisierten Suchverteilung erhalten werden. Wenn ja, kann das Verfahren 700 zu Block 770 übergehen, in dem antagonistische Bereiche für das Eingabebild x und wiederum ein angegriffenes Bild x' unter Verwendung von Superpixeln mit hohem θ
m und ihrem optimalen t* erzeugt werden können.
-
8 veranschaulicht ein Beispiel für eine Hardware-Implementierung für eine Vorrichtung 800 gemäß einer Ausführungsform der vorliegenden Offenbarung. Die Vorrichtung 800 zum Erzeugen antagonistischer Bereiche kann einen Speicher 810 und zumindest einen Prozessor 820 umfassen. Der Prozessor 820 kann mit dem Speicher 810 gekoppelt und zum Ausführen der Verfahren 600 und 700 ausgestaltet sein, die vorstehend unter Bezugnahme auf die 6 und 7 beschrieben sind. Der Prozessor 820 kann ein Allzweckprozessor sein oder auch als eine Kombination von Datenverarbeitungsgeräten, z. B. eine Kombination aus einem DSP und einem Mikroprozessor, mehrerer Mikroprozessoren, einem oder mehreren Mikroprozessoren in Verbindung mit einem DSP-Kern oder einer anderen derartigen Konfiguration, implementiert werden. Der Speicher 810 kann die Eingabedaten, die Ausgabedaten, die von dem Prozessor 820 erzeugten Daten und/oder die von dem Prozessor 820 ausgeführten Anweisungen speichern.
-
Die im Zusammenhang mit der vorliegenden Offenbarung beschriebenen Vorgänge, Modelle und Netzwerke können in Hardware, von einem Prozessor ausgeführter Software, Firmware oder einer beliebigen Kombination davon implementiert werden. Gemäß einer Ausführungsform der Offenbarung kann ein Computerprogrammprodukt zum Erzeugen antagonistischer Bereiche prozessorausführbaren Computercode zum Ausführen des Verfahrens 600 und des Verfahrens 700 umfassen, die vorstehend unter Bezugnahme auf 6 und 7 beschrieben sind. Gemäß einer anderen Ausführungsform der Offenbarung kann ein computerlesbares Medium Computercode zum Erzeugen von antagonistischen Bereichen speichern, wobei der Computercode, bei Ausführung durch einen Prozessor, den Prozessor zum Ausführen des Verfahrens 600 und des Verfahrens 700 veranlassen kann, die vorstehend unter Bezugnahme auf 6 und 7 beschrieben sind. Computerlesbare Medien beinhalten sowohl nicht flüchtige Computerspeichermedien als auch Kommunikationsmedien, einschließlich aller Medien, die die Übertragung eines Computerprogramms von einem Ort zum anderen ermöglichen. Jede Verbindung kann zweckmäßig als computerlesbares Medium bezeichnet werden. Andere Ausführungsformen und Implementierungen liegen in dem Umfang der Offenbarung.
-
Durch Auswählen übersegmentierter Regionen oder Superpixel und Optimieren der Textur auf diesen, kann die vorliegende Offenbarung mehrfach verteilte Bereiche erzeugen, die flexiblere Formen aufweisen. Durch die Optimierung von Positionen, Formen und Texturen von antagonistischen Bereichen anstelle der Verwendung von fester Form und Position kann die vorliegende Offenbarung bei gleichem Bereichsflächenaufwand eine bessere Angriffsleistung erhalten, während sie bei Erreichen desselben Angriffsziels auch die Angriffsregionsfläche einsparen kann. Die erzeugten antagonistischen Bereichen oder angegriffenen Bilder können zur Auswertung der Sicherheit eines neuronalen Computer-Sicht-Netzwerkes verwendet werden, und entsprechende Abwehrtechniken können auf das neuronale Computer-Sicht-Netzwerk angewendet werden, wodurch die Sicherheit des neuronalen Computer-Sicht-Netzwerks entsprechend verbessert wird.
-
Die vorstehende Beschreibung der offenbarten Ausführungsformen ist vorgesehen, um einem Fachmann auf dem Gebiet der Technik die Herstellung oder Verwendung der verschiedenen Ausführungsformen zu ermöglichen. Verschiedene Modifikationen dieser Ausführungsformen sind für den Fachmann auf dem Gebiet der Technik leicht ersichtlich, und die hierin definierten allgemeinen Prinzipien können auf andere Ausführungsformen angewendet werden, ohne von dem Umfang der verschiedenen Ausführungsformen abzuweichen. Daher sind die Ansprüche nicht auf die hierin dargestellten Ausführungsformen beschränkt, sondern ihnen ist der größtmögliche Umfang zuzuerkennen, der mit den folgenden Ansprüchen und den hier offenbarten Prinzipien und neuen Merkmalen vereinbar ist.